统计分析
文章平均质量分 91
sjpljr
我不会,我学习。
展开
-
二项分布、泊松分布、正态分布的关系
http://hongyitong.github.io/2016/11/13/%E4%BA%8C%E9%A1%B9%E5%88%86%E5%B8%83%E3%80%81%E6%B3%8A%E6%9D%BE%E5%88%86%E5%B8%83%E3%80%81%E6%AD%A3%E6%80%81%E5%88%86%E5%B8%83/(1条消息)从 Poisson 分布到服务器的访问 ...转载 2019-04-14 09:48:26 · 3494 阅读 · 0 评论 -
树模型之三种常见的决策树:CART,…
树模型(又称决策树或者树结构模型):基本思想和方差分析中的变异分解极为相似。目的(基本原则):将总研究样本通过某些牲(自变量取值)分成数个相对同质的子样本。每一子样本因变量的取值高度一致,相应的变异/杂质尽量落在不同子样本间。所有树模型的算法都遵循这一基本原则。不同树模型差异:差异在于对变异/杂质的定义不同。比如P值、方差、熵、Gini指数(基尼指数)、Deviance等作为测量指标。树模原创 2017-04-14 10:01:18 · 22576 阅读 · 0 评论 -
训练样本和测试样本
一, 训练样本和测试样本训练样本的目的是 数学模型的参数,经过训练之后,可以认为你的模型系统确立了下来。建立的模型有多好,和真实事件的差距大不大,既可以认为是测试样本的目的。一般训练样本和测试样本相互独立,使用不同的数据。网上有人说测试样本集和验证样本集不一样,测试样本集数据主要用于模型可靠程度的检验,验证样本集的样本数据要在同样条件下,再另外采集一些数据用来对模型的准确性进行原创 2017-04-14 10:01:14 · 36268 阅读 · 0 评论 -
《拉格朗日和牛顿插值法》 …
原文地址: 实验报告">《拉格朗日和牛顿插值法》 实验报告作者:家俊一、实验名称: 插值问题 二、实验目的: 用拉格朗日插值和牛顿差值的方法,在已知函数在点x0,x1,…xn的函数值y0,y1,…yn的情况下,求插值节点x的函数值y,即求f(x)。并比较结果,说明为什么相等。 三、实验方法:(1)拉格朗日插值根据x0,x1,…xn;y0,y1,…yn构造插值多转载 2017-04-14 10:01:04 · 2549 阅读 · 0 评论 -
统计资源
http://cos.name/2013/01/dynamic-bubble-plot-in-r/http://www.dataguru.cn/dmer.cn 质性分析软件NVivohttp://www.tipdm.org/ts/623.jhtml---xby2016.qqemail.thankyou(null)123 FQ:http://blog.csdn.net/two原创 2017-04-14 10:00:53 · 343 阅读 · 0 评论 -
傅里叶变换深入浅出最完整版
http://mp.weixin.qq.com/s?__biz=MzIzNTAzOTE0Mw==&mid=403595027&idx=1&sn=0705d54967a11448a47b1a77d36a73b8#rd原创 2017-04-14 09:58:21 · 751 阅读 · 0 评论 -
通俗理解T检验与F检验的区别
原文地址:通俗理解T检验与F检验的区别作者:一抹新绿正态分布的前世今生(3)-三大分布(卡方分布、t分布、F分布) http://www.360doc.com/content/18/0720/20/11935121_771982078.shtml这是非常清楚解释,适合我啊。1,T检验和F检验的由来一般而言,为了确定从样本(sample)统计结果推论至总体时所犯错的概率,我们会利用...转载 2017-04-14 09:57:04 · 1075 阅读 · 0 评论 -
深入解读Logistic回归结果(…
原文地址:深入解读Logistic回归结果(一):回归系数,OR作者:王江源Logistic回归虽然名字叫”回归” ,但却是一种分类学习方法。使用场景大概有两个:第一用来预测,第二寻找因变量的影响因素。 一 从线性回归到Logistic回归线性回归和Logistic回归都是广义线性模型的特例。假设有一个因变量y和一组自变量x1, x2,x3, ... ,xn,其中y为连续变量转载 2017-04-14 09:56:30 · 12956 阅读 · 0 评论 -
深入解读Logistic回归结果(…
原文地址:深入解读Logistic回归结果(一):回归系数,OR作者:王江源Logistic回归虽然名字叫”回归” ,但却是一种分类学习方法。使用场景大概有两个:第一用来预测,第二寻找因变量的影响因素。 一 从线性回归到Logistic回归线性回归和Logistic回归都是广义线性模型的特例。假设有一个因变量y和一组自变量x1, x2,x3, ... ,xn,其中y为连续变量转载 2017-04-14 09:56:22 · 83467 阅读 · 5 评论 -
amos
amos是analyse of momentstructures,也就是对矩结构的分析,主要是用于对结构方程模型(SEM)的建立和检验,不过也有使用liserl和mplus做SEM的,而amos的主要优势在于它是spss的兄弟,都是IBM公司旗下产品,具有spss一样的图形界面,使用者仅仅使用鼠标点击的方法就可以建立和检验结构方程模型,mplus必须要学习一些代码,使用编程的方法来做统计。作为a原创 2017-04-14 09:55:57 · 1952 阅读 · 0 评论 -
P(AB)与P(B|A)区别!!!!!!
--------问题,疑问???纠结!!!!!!!---------- P(AB)=P(B|A)P(A)或:P(B|A)=P(AB) P(A)P(B|A)意思是当A发生时,B发生的概率,不就是P(AB)么。为何前面还要乘一个P(A)呢?P(B|A),如投掷一白一黑两个骰子(色子dice [daɪs] ) --------原创 2017-04-14 09:55:41 · 31113 阅读 · 6 评论 -
指标与维度的那些事
原文地址:指标与维度的那些事作者:小蚊子数据分析指标与维度是数据分析中最常用到的术语,它们是非常基础的,但是又很重要,经常有朋友没有搞清楚它们之间的关系,只有掌握理解了,我们的数据分析工作开展就就容易多了。现在就来说说指标与维度的那些事。1、指标指标,用于衡量事物发展程度的单位或方法,它还有个IT上常用的名字,也就是度量。例如:人口数、GDP、收入、用户数、利润率、留存率、覆盖率等。很转载 2017-04-14 09:54:41 · 1048 阅读 · 0 评论 -
数据分析实用方法--QQ模型
原文地址:数据分析实用方法--QQ模型作者:小蚊子数据分析 这次跟大家分享一个实用的数据分析方法——QQ模型,这是它首次与大家见面,你百度都搜不到的方法,因为属于蚊子原创。 进行数据分析时,都可以从数量(Quantity)、质量(Quality)这两大角度进行分析,简称为QQ模型,也称为QQ模型分析方法。QQ模型是数据分析中一种常用的分析方法。 第一个Q,就是数量(Quantity),也转载 2017-04-14 09:54:36 · 1051 阅读 · 0 评论 -
热力学 第一定律 和&nbs…
热力学第一定律和第二定律是科学界公认的宇宙普遍规律。能量守恒定律是说,能量可以由一种形式变为另一种形式,但其总量既不能增加也不会减少,是恒定的。二十世纪初爱因斯坦发现能量和质量可以互变后,此定律改为能质守恒定律。这个定律应用到热力学上,就是热力学第一定律。这一定律指出物质和能量既不能被消灭也不能被创造,一度曾被无神论当作宇宙永恒的根据。热力学第二定律是描述热量的传递方向的:分子有规则运动的机械能可原创 2017-04-14 09:52:56 · 697 阅读 · 0 评论 -
卡方检验与卡方分布
卡方检验笔记18:SPSS交叉表卡方与非参数卡方检验有何区别?附案例|数据小兵博客 http://www.datasoldier.net/archives/893卡方检验,最透彻直接的概念是验证观测频数与理论频数的吻合程度。SPSS统计软件有两个菜单可以完成“卡方检验”,第一处是交叉表卡方,第二处是非参数卡方,大家注意啊,他们是有区别的,各自执行不同的任务。具体来说,卡方检验常用...转载 2017-04-14 10:01:23 · 3624 阅读 · 0 评论 -
C5.0算法学习
C5.0是决策树模型中的算法,79年由J RQuinlan发展,并提出了ID3算法,主要针对离散型属性数据,其后又不断的改进,形成C4.5,它在ID3基础上增加了队连续属性的离散化。C5.0是C4.5应用于大数据集上的分类算法,主要在执行效率和内存使用方面进行了改进。C4.5算法是ID3算法的修订版,采用GainRatio来加以改进方法,选取有最大GainRatio的分割变量作为准则,避免I原创 2017-04-14 10:01:28 · 9700 阅读 · 0 评论 -
样本方差之n-1理论推导及计算机实验证明
样本方差计算中,取值n-1的依据:数学理论依据:https://www.zhihu.com/question/28964121作者:Yeung Evan链接:https://www.zhihu.com/question/28964121/answer/289715220来源:知乎著作权归作者所有。样本方差的表达式除以 而不是除以 真的是日经话题。实际上,唯一的解释是除...转载 2019-04-14 09:05:12 · 3221 阅读 · 1 评论 -
环比同比YOY\QoQ及QQ\PP图Q-Q\P-P…
QoQ(quarter over quarter):季营收成长(衰退)率 是指今年该季的营收金额与上一季或去年同一季的营收金额的成长(衰退)百分比率billion=10亿=1000,000,000 ;million=100万=1000,000YoY:Year over Year ,意为同去年同期相比。YoY(Year-on-year percentage),是指当期的数据较去年同期变...转载 2017-04-14 09:54:16 · 26825 阅读 · 0 评论 -
正态分布的前世今生(转载)
科学松鼠会 » 正态分布的前世今生(上) http://songshuhui.net/archives/76501科学松鼠会 » 正态分布的前世今生(下) http://songshuhui.net/archives/77386转载 2019-01-28 09:35:20 · 1966 阅读 · 0 评论 -
卷积神经网络基础总结
原文地址:卷积神经网络基础总结作者:王江源一、卷积的基本操作过程卷积也称为滤波,是一种线性的信号处理技术。二、卷积神经网络的卷积层结构单层动态演示:详见:https://cs231n.github.io/assets/conv-demo/index.htmloutput = W*input +b不同层之间的连接 三、卷积层参数之间的关系卷积层转载 2017-04-14 10:12:32 · 1269 阅读 · 0 评论 -
数据统计:数据标准化、中心化、归一化
关于spss统计学是SPSS的基石,严谨的统计学思维和SPSS统计方法被滥用是两个矛盾体。一边是简单易用的菜单式操作,另一边是滴水不漏的统计基础,而spss傻瓜式的默认设置基本能完成大部分分析项目,这极易造成统计分析方法被滥用,尤其是SPSS新手。数据分析涉及统计基础、工具使用、可视化、数据挖掘方法、数据化思维,尤其是如何与业务问题进行结合的实践经验,所以说有一定的门槛。学习资料|王江...转载 2017-04-14 10:12:27 · 1475 阅读 · 0 评论 -
统计学的环比、同比
参考:环比同比YOY\QoQ及QQ\PP图Q-Q\P-P含义http://blog.sina.com.cn/s/blog_48ad94910102w9s5.html VC有今日资本徐新、资产配置领域哈佛大学捐赠基金的掌管者是女性、证券分析行业有互联网女皇MaryMeeker,唯独股票投资大机构的大佬没见过女性。 算术对炒股来说,只要满足了最低标准(加减乘除乘方开方),就有了做得很好的原创 2017-04-14 10:09:22 · 7881 阅读 · 0 评论 -
z分数(z-score)——之前世今生
z分数(z-score):也叫标准分数(standardscore),是一个分数与平均数的差再除以标准差的过程。公式: z=(x-μ)/σ。其中x为某一具体分数,μ为平均数,σ为标准差。Z值的量代表着原始分数和母体平均值之间的距离,是以标准差为单位计算。即:一个给定分数距离平均数多少个标准差?在原始分数低于平均值时Z则为负数,反之则为正数。 一个数列的各z分数的平方和等于该数列数据的个原创 2017-04-14 10:05:00 · 33539 阅读 · 0 评论 -
F检验为什么要求各比较组的方差齐…
www.statstar.comhttp://www.statstar.com/http://www.peixun.net/本文件为《IBM SPSS数据分析与挖掘案例精粹》一书配套光盘完整版,书后附带光盘未包括软件试用版。作者新浪微博:@文彤老师、@数里寻道、@AllanVV读者交流微群:http://q.weibo.com/749521软件试用版下载:http://peixun原创 2017-04-14 10:04:51 · 3687 阅读 · 0 评论 -
CRISP-DM(跨行业数据挖掘标准流程…
跨行业数据挖掘标准流程(CRISP-DM):(cross-industry standard process for datamining)。此KDD过程模型于1999年欧盟机构联合起草.通过近几年的发展,CRISP-DM模型在各种KDD过程模型中占据领先位置,采用量达到近60%.(数据引自CiosandKurgan于2005年合著的论文trandsin data mining and kn原创 2017-04-14 10:04:24 · 8171 阅读 · 0 评论 -
“物以类聚人以群分”看移动DSP如何…
概述:古语有云“物以类聚,人以群分”,这句语揭示了“聚类”和“人群”之间的内在联系。在移动DSP的广告投放系统中,最为关键的“人群定向”功能正是通过“聚类”算法得以实现的。 移动DSP:就是针对移动端的需求方平台(Demand-SidePlatform),是为解决广告主投放的各种需求,真正实现人群定位的精准广告的平台。以YeahMobi的移动DSP平台为例,其对接了Smaato、Nexa原创 2017-04-14 10:04:04 · 728 阅读 · 0 评论 -
聚类分简单来讲:有监督 -> 分类(…
简单来讲:有监督 -> 分类(回归) -> 识别;无监督 -> 聚类 -> 分割;' -> ' 表示对应关系(ps:这个说法来自于《学习Opencv》这样讲不知道有没有问题,目前我是这样理解的)一、分类和聚类简单地说,分类(Categorization orClassification)就是按照某种标准给对象贴标签(label),再根据标签来区分归类。简单地说,聚类是指事先没有“标原创 2017-04-14 10:03:59 · 9847 阅读 · 0 评论 -
聚类分析之迭代聚类——“K-Means聚类…
鲁棒是Robust,英[rə(ʊ)'bʌst]的音译,也就是健壮、强壮、坚定、粗野的意思。鲁棒性(robustness)就是系统的健壮性。常使用如:算法的鲁棒性。算法杂货铺转载学习http://www.cnblogs.com/leoo2sk/archive/2010/09/20/k-means.html算法杂货铺——k均值聚类(K-means) http://www.cnblogs.c原创 2017-04-14 10:03:54 · 20084 阅读 · 0 评论 -
小白学数据分析----->关联分析学习…
原文链接:http://zhan.renren.com/dmeryuyang?gid=3602888498023976650&checked=true小白学数据分析----->关联分析学习算法篇Apriori早些时候写过关于购物篮分析的文章,其中提到了C5.0和Apriori算法,没有仔细说说这算法的含义,昨天写了一下关联分析的理论部分,今天说说关联分析算法之一的Apriori算原创 2017-04-14 10:02:16 · 482 阅读 · 0 评论 -
Clementine学习(决策树,神经网络…
http://blog.sina.com.cn/s/articlelist_1883864570_4_1.html----------------1分类预测指通过向现有数据的学习,使模型具备对未来新数据的预测能力。对于分类预测有这样几个重要,一是此模型使用的方法是归纳和提炼,而不是演绎。非数据挖掘类的软件的基本原理往往是演绎,软件能通过一系列的运算,用已知的公式对数据进行运算或统计。分类预原创 2017-04-14 10:01:34 · 7501 阅读 · 0 评论 -
门店经营指标数据分析!(独家秘笈…
http://www.itongji.cn/article/061JB12015.html中国统计网国内大数据分析第一门户,数据分析从这里开始!【干货】门店经营指标数据分析!(独家秘笈)hong 发表于 2015-06-1710:33 来源:服装数据分析销售额、客流量、客单价、客品次……店长确实是被一堆数据包围着,但很少有店长对这些数据进行分析。没有数据分析所有人都将淹没在数据的海洋原创 2017-04-14 09:52:39 · 4938 阅读 · 0 评论 -
市场研究中的多变量分析技术…
原文地址:市场研究中的多变量分析技术(转至沈浩老师博客)作者:小蚊子数据分析原文:http://shenhaolaoshi.blog.sohu.com/139238638.html 很多人在从事市场研究和经营分析的时候,特别是定量研究方法需要用到统计分析的时候,到底应该采用哪种分析方法,或者应该用哪种方法更适合这个分析,比较困惑。下面我来总结一下,如何选择多变量统计分析方法来适应研究的需要!转载 2017-04-14 09:52:34 · 2482 阅读 · 0 评论 -
R笔记3:ggplot绘制商务图表…
原文地址:R笔记3:ggplot绘制商务图表--杂志级商业图表作者:刘万祥ExcelPro文/ExcelPro的图表博客(转载请保留出处)0、作图流程如果是非IT人士,由于以往都是使用Excel作图,在看ggplot的两本书时会很困惑,一是书中的例子都是使用系统自带的数据集,初学者不知道如何换成自己的数据;二是那些数据集都是长数据,而初学者的数据可能都是宽数据,那些代码无法用。经过摸转载 2017-04-14 09:52:20 · 1158 阅读 · 0 评论 -
统计建模与R软件第四章习题…
原文地址:统计建模与R软件第四章习题答案(参数估计)作者:蘓木柒Ex4.1只会极大似然法,不会矩法...Ex4.2指数分布,λ的极大似然估计是n/sum(Xi)>x>lamda[1] 0.05Ex4.3Poisson分布P(x=k)=λ^k/k!*e^(-λ)其均数和方差相等,均为λ,其含义为平均每升水中大肠杆菌个数。取均值即可。>x>mean(x)转载 2017-04-14 09:47:50 · 2467 阅读 · 0 评论 -
统计建模与R软件第二章习题…
原文地址:统计建模与R软件第二章习题答案(R软件的使用)作者:蘓木柒 R,从零水平开始。国内真的没有一本像样的R教科书啊!勉强用用薛毅编的《统计建模与R软件》吧,找不出更好的了…… 工作环境仍是linux。 第二章答案:Ex2.1xyez=2*x+y+ez1=crossprod(x,y)#z1为x1与x2的内积或者 x%*%yz2=tcrossprod(x,y)#z1转载 2017-04-14 09:47:45 · 1233 阅读 · 1 评论 -
统计建模与R软件第三章习题…
原文地址:统计建模与R软件第三章习题答案(数据描述性分析)作者:蘓木柒Ex3.1新建txt文件如下:3.1.txt74.3 79.5 75.0 73.5 75.8 74.073.5 67.2 75.8 73.5 78.8 75.6 73.5 75.0 75.872.0 79.5 76.5 73.5 79.5 68.875.0 78.8 72.0 68.8 76.5 73.5 72.7 7转载 2017-04-14 09:47:39 · 2567 阅读 · 1 评论 -
[zz]ggplot2绘图入门系列之…
原文地址:[zz]ggplot2绘图入门系列之一:导论作者:黄晶PKU本文转载 数据科学与R语言http://xccds1977.blogspot.jp/2012/01/ggplot2.html需翻墙!ggplot2绘图入门系列之一:导论1 什么是ggplot2ggplot2是用于绘图的R语言扩展包,其理念根植于《Grammar ofGraphics》一书。它将绘图视为一种映射,即转载 2017-04-14 09:47:34 · 370 阅读 · 0 评论 -
一个关于 R作直方图的小例子
一个关于 R作直方图的小例子 2010-04-27 19:31:36| 分类: R&Bioconductor|举报|字号 订阅http://liyinhao.ycool.com/post.3228142.html首先是一串很简单的数据,有30个元素:105 93 80 109112 88 98 100 116119 95 97 96107原创 2017-04-14 09:47:29 · 6639 阅读 · 0 评论 -
[转贴]R与SAS、SPSS之比较
原文地址:[转贴]R与SAS、SPSS之比较作者:周庭锐教授非常有用的资料。转贴自 小樽的雨后R与SAS、SPSS之比较主题SAS产品线SPSS产品线R语言相关包高级模块SAS/STAT®SPSS AdvancedModels™stat, MASS及众多扩展包基础模块SAS®SPSS Base™R联合转载 2017-04-14 09:47:23 · 6680 阅读 · 0 评论 -
[整理] 利用R生成随机分布的…
原文地址:利用R生成随机分布的方法">[整理] 利用R生成随机分布的方法作者:周庭锐教授[整理] 利用R生成随机分布的方法文/周庭锐夜里复习各种统计分布的模拟、拟合、验证的R编程,顺手整理一下。(不懂怎么一回事,刚刚贴上了,然后一转眼就消失了。新浪博客里闹鬼?)d: densityp: distribution functionq: quantile functionr: ran转载 2017-04-14 09:47:18 · 4774 阅读 · 0 评论