1.统计学含义及其应用
1)含义:
统计学是用以收集数据,分析数据和由数据得出结论的一组概念,原则和方法。
2)统计分析数据:
描述统计
推断统计(参数估计法,假设检验法)
3)应用
统计是适用于所有学科领域的通用数据分析方法,是一种通用的数据分析语言。
2.统计学基本概念
1)总体:包含所研究的全部个体(数据)的集合
2)样本:从总体中抽取的一部分元素的集合
3)参数:用来描述总体特征的概括性数字度量
4)统计量:描述样本特征的概括性数字度量
5)变量:说明现象特征的概念
3.描述性统计图表
1)直方图
是频数直方图的简称,也叫质量分布图,能够显示各组频数分布情况,显示各组之间频数差别,数据集较为广泛,样本数量不宜过小,是一个连续变量的概率分布的估计,研究质量波动状况信息。
2)箱型图(盒须图)
一种作用显示一组数据分散情况资料的统计图,不是绘制实际数值,而是显示分布的统计概况,能显示出一组数据的最大值,最小值,中位数,上下四分位数,形状像箱子,反应数据真实分布,可识别数据异常值。判断数据批的偏态和尾重。
3)散点图
回归分析中,数据点在直角坐标系上的分布图,可以表示因变量随自变量变化的大致趋势,可以对数据点进行拟合,判断两个变量之间是否存在某种关联的分布模式,通常用于比较跨类别的聚合数据。
4.集中趋势的描述
1)众数:一组数据中出现次数最多的数。研究各数据出现的频数。
2)中位数:一组数据按照顺序排序,最中间数或者最中间两个数的平均数。中位数与数据排列位置有关,个别数据波动对中位数没有影响。
3)平均数:一组数据的总和除以数据的总个数。平均数容易受到个别特殊值的影响。
4)分位数:亦称分位点。指将一个随机变量的概率分布范围分为几个等份的数值点,常用的有中位数(二分位点),四分位数,百分位数。
5.离散程度的描述
1)极差:
用来反映一组数据变化范围的大小。
极差=最大值-最小值
极差只对极端值较为敏感。
2)异众比率:
非众数组的频数占总频数的比例。
3)方差:
反应一组数据的整体波动大小的指标,反应的是一组数据偏离平均值的情况
样本方差:
总体方差:
4)标准差:
是方差的算术平方根,是一组数值自平均值分散开来的程度的一种测量观念,标准差较大,代表大部分数值和其平均值之间差异较大。
5)离散系数:
又称变异系数。是测量数据离散程度的相对统计量,用于比较不同样本数据的离散程度。离散系数越大,数据离散程度越大。如果比较的单位和(或)平均数不同时,采用标准差与平均数的比值比较:
Vs表示总体离散系数和样本离散系数。
离散系数通常可以进行多个总体的对比,只有平均值不为零时有定义,反映随机变量在单位均值上的波动程度。
变异系数也被称为标准离差率或单位风险。
由于指数分布的标准差等于其平均值,所以其离散系数等于一.
离散系数小于一的分布:爱尔郎分布,低差别的。
离散系数大于一的分布:超指数分布,高差别的。
6.分布形态的描述
1)偏态分布
分布曲线左右不对称的数据次数分布,是连续随机变量概率分布的一种,可以通过峰度和偏度的计算,衡量偏态程度,可以分为正偏态和负偏态,指频数分布的高峰位于一侧,尾部向另一侧延伸的分布。
2)正偏态:
M>Me>M0 平均数>中数>众数
负偏态:M<Me<M0 平均数<中数<众数
偏态系数小于0,左偏。
偏态系数大于0,右偏。
3)峰态
是对数据分布平峰或者尖峰程度的测度,测度峰态的统计量是峰态系数K.
峰态通常是标准正太分布相比较而言。
如果一组数据服从标准正态分布,则K=0
若K明显不等于0,则表名分布比正态分布更平或者更尖,通常称为平峰分布或者尖峰分布。
7.统计分布
1)二点分布(0-1分布或者伯努利分布)
分别以概率P和1-P取1和0为值。
均值EX=P,方差DX=P(1-P)
2)二项分布(两个对立事件的概率分布)
n重伯努利实验:
0<P<1
当n=1时,是二项分布的特殊情况,则为二点分布,X~B(1,p)(k=0,1).
n!=1时,X~B(n,p). 当n很大,p很小时引入泊松分布
n个独立的成功/失败试验中成功的次数的离散概率分布,每次成功的概率为P
二项式系数
期望EX=np, 方差D(X)=np(1-p)
两个二项式分布的协方差:
&esmp;二项分布可加性:XB(m,p),YB(n,p) 则X+Y~B(m+n,p)
3)正态分布:也称“常态分布”高斯分布
正太曲线又称钟形曲线,估计频数分布,进行质量控制
若随机变量x服从一个数学期望为
方差为
的正态分布,记为
当
时为标准正态分布。
正态曲线的高峰位于正中央,即均数所在位置(集中性)
正态曲线以均数为中心,左右对称。
正态曲线:均数决定正态曲线的中心位置,标准差决定正态曲线的陡峭或扁平程度。标准差越小,曲线越陡,标准差越大,曲线越扁平。
正态分布的可加性:
4)卡方分布
若
独立且都服从N(0,1),则
是自由度为n的卡方分布。
且x,y相互独立,则
当自由度n很大时,卡方分布近似为正态分布。
对于任意正整数x,自由度为n的卡方分布是一个随机变量x的机率分布,卡方分布可以用来测量定性数据,两个分类标准间的独立性,也可以用来衡量观测分布和理论分布之间的拟合程度。
均值n越大,分布曲线也越低调。
自由度越小,分布越偏斜。
卡方分布的均数为n,记
卡方分布的方差为2n,记
5)t分布
用于根据小样来估计呈正态分布且方差未知的总体的均值,X和Y相互独立,且
服从自由度为n的t分布,记为T~t(n)。
当n充分大时,t(n)近似于N(0,1)分布。
自由度越小,t分布曲线越平坦,曲线中间越低,双侧尾部越高。
6)F分布
在方差分析,回归方程的显著性检验中有重要地位。
且x,y相互独立,则
n1为第一自由度,n2为第二自由度。
8.相关分析的描述
1)相关分析:
研究两个或两个以上处于同等地位的随机变量间的相关关系的统计分析方法。
2)回归分析:
侧重于研究随机变量间的依赖关系,以便用一个变量去预测另一个变量。
3)散点图:
当自变量取某一值时,因变量对应为一概率分布。对于所有的自变量取值的概率分布都相同,则因变量和自变量是没有关系的。
4)相关分析分类:
相关程度:完全相关,不完全相关,不相关
相关方向:正相关,负相关
相关形式:线性相关,非线性相关
影响因素:单相关,复相关
5)相关系数:
研究变量之间线性相关程度的量,反应两变量之间相关程度,确定因变量估计值误差的程度。
Cov(x,y)为协方差,D(x)=Var(x)为方差.
相关系数等于±1时,x,y严格线性相关。
相关系数大于0小于1时,x,y正相关,散点图斜向上。
相关系数大于-1小于0时,x,y负相关,散点图斜向下。
9.假设检验
1)两类错误
弃真:H0为真,否定了H0
取伪:H0为假,接受了H0
2)分类
参数假设检验,非参数假设检验
3)假设检验
P值检验法:P值即概率
统计学表明:P<0.05,有统计学差异
P<0.01,有显著统计学差异
P<0.001,有及其显著的统计学差异
P值不能赋予数据任何重要性,只能说明某事件发生的机率。
p值检验法的原则是当P值小到一定程度时拒绝H0.
较小的显著水平(a=0.05)下不能拒绝H0.
较大的显著水平(a=0.1)下可以拒绝H0.
4)Z统计量和t统计量常常用于均值和比例的检验。Z分布是标准正态分布。
卡方统计量常用于方差的检验。