统计学基本原理学习笔记
变量测量尺度
定类
功能:分类作用,比如性别
定序
功能:分类、排序作用,比如喜欢的艺人、年级
定距
功能:分类、排序、加减,比如温度
定比
功能:分类、排序、加减、乘除,比如年龄
非统计学专业把定类与定序合称为分类变量,定距与定比合称为连续变量。
分类变量的描述统计方法只能用频次统计,对于连续变量既可以用频次统计,也可以用均值、标准差。
平均值
算术平均:
通常所说的平均值。
几何平均:
在计算多年的平均增长率、复增长率时使用较多。只有在数据为正数时才能计算。
调和平均:
大多用在数据中较多数值聚集在最小值附近,原因可能是因为调和平均相对于算术、几何平均值最小。只有在数据为正数时才能计算。
调整平均:
可以去除一定比例(通常5%,实际根据经验自己判断)最大值和最小值的原因是:因为这些值很可能是异常值。
均值通常应用在连续变量里面。
右偏数据:波峰在左边的数据。
左偏数据:波峰在右边的数据。
中位数与众数
中位数:
当一组序列数据之间差异较大时,导致平均值代表性较弱,可通过中位数来表示数据的集中趋势。
众数:
通常应用在连续变量中,即数值型变量。
异常值的定义:跟大多数值不一样的少数值定义为异常值。
极差和标准差
衡量离散趋势,数据离散趋势代表了数据中包含的信息量。离散程度越高,包含的信息量越多,解释起来越复杂。
- 如果希望比较两组数据的离散趋势,不能直接比较两组数据的标准差,因为两组数据的数量和均值不同。通常选用离散系数来进行比较,离散系数等于标准差/均值。
- 标准差计算公式中有的除以n,有的除以n-1,当计算总体数据标准差时除以n,通过样本数据计算总体标准差时除以n-1,原因是人为增大标准差,以提高标准差的代表性。
统计推断
两大经典定理:
大数定理:样本越大,样本均值几乎必然等于总体均值。
中心极限定理:当样本量逐渐趋于无穷大时,抽样样本的均值的频数逐渐趋于正态分布。
抽样误差与标准差
抽样误差:
由个体变异产生的、抽样造成的样本统计量与总体参数的差别。
原因:抽样与个体差异导致。
标准差:
表示样本统计量抽样误差大小的统计量。
t分布
t分布只有一个参数,即自由度v(样本量)。当自由度不同时,曲线的形状不同;当自由度趋向无穷大时,t分布趋近标准正态分布。
Z值转换公式
用来将t分布转换为(0,1)z分布,又称为标准化,或者叫Z值标准化。Z=(xi(样本数值)-x(样本均值))/s(标准差),用于判断哪些数值为异常值,Z值绝对值大于3为异常值,大于5为极端值。
参数估计
用样本统计量(例:均值)推断总体(例:均值)参数。
点估计:
用相应样本统计量直接作为总体参数的估计值。
区间估计:
按预先给定的概率所确定的包含未知总体参数的一个范围。
总体标准差未知且样本量较小,按t分布估计,样本量较大,按z分布估计。
置信度
T=1.65 对应90%的置信度
T=1.98 对应95%的置信度
T=2.58 对应99%的置信度
假设检验
根据数据提出一个假设,然后通过参数估计来验证我的假设是否成立。
目的:判断总体与样本量的差异是哪一种原因导致的。
抽样
指在不能进行全数调查时,为了推测总体的倾向,抽取真实地代表调查总体的调查对象。
特点:
- 抽样调查花费较少
- 迅速地获取信息
- 争取时效是非常重要的
- 总体太大,实际上无法实行普查
- 个别对象难以接触
- 实验是破坏性的
- 科学地抽样--样本具有代表性,——可控制抽样误差
抽样两个基本原则:
抽样的随机性原则:等概率或不等概率
抽样效果最佳原则:固定费用,抽样误差最小;确定精度下,调查费用最小
抽样单元
为了便利地实现随机抽样,常常把总体划分为有限个互不重叠的部分,每一部分叫做一个抽样单元。
抽样框
抽样框是包含全部抽样单元的资料,一般说来,普查可以提供抽样框资料,表现形式名单、地图、统计年鉴等,很多时候,很难获得完整的抽样框资料。
抽样样式
概率抽样:
等概率抽样-所有的样本单位所出现的机会是相同的。
不等概率抽样-可以计算每个样本单位所出现的概率。
按照随机/概率规律的原则,从总体中抽取样本。可以对总体进行推断。
非概率抽样:
所有的样本单位所出现的机会是不确定的,不能计算每个样本单位所出现的概率,因为选择样本的方法是非随机的。
方便抽样:
利用会议、展览、商场、街头抽样;报刊问卷调查,网络问卷。
判断抽样:
依据研究者主观判断,选取可代表总体的个体作为样本。
配额抽样:
按照调查对象的某种属性或特征,将总体中所有个体分类,然后按照一定比例分别抽取样本。配额抽样有可能接近概率抽样的结果。前提是各类群同质,无需随机抽样;类型划分合理;配额符合总体中各类型的分布。
滚雪球抽样:
又称裙带抽样、推荐抽样,是一种在稀疏总体中寻找受访者的抽样方法。
简单随机抽样
简单抽样方法和系统抽样方法是指,对所有调查对象编上一连串的号码,据此从名册中进行随机抽样的方法,在可以对所有调查对象进行编号的情况下所使用的抽样方法。通过查随机数表等的方法,随机地抽取调查对象的号码。
当研究总体不太大,或总体单元的元素有完备的名单是,简单随即抽样非常适用。
系统抽样(等距抽样)
系统抽样方法先求出抽样间隔值 (为名册登记人数÷抽取人数所得的值舍去小数点后面数字的整数),接着,在这个范围内选择一个随机数作为起始号码。起始号码加抽样间隔值,所对应的即为样本。进而,反复地在这个值的基础上加上抽样间隔值,以抽足所有的样本。抽取的样本量多于要求的样本量时,使用简单抽样方法从中抽取需要剔除的样本。
概率与规模成比例抽样
PPS抽样:
PPS 抽样实际上是整群抽样与简单随机抽样或等距抽样(系统抽样)配合的两阶段抽样。
PPS 抽样是指按概率比例抽样,属于概率抽样中的一种。
分层抽样:
分层原则:层内差异小,层间差异大
优点:
子总体内的抽样单元之间差异比较小,子样本具有较好的均匀性,可能得到较高精度的估计量;
有效消除特殊个体的影响;
可对各层的特性加以比较;
实施管理方便
区域抽样:
在访问调查中,由于居民基本登记名册使用起来不方便,一级抽样选出街区后,在二级抽样中抽取样本(家庭户和个人)时,也有用住宅地图来代替抽样名册的情况。这种将住宅地图用作抽样名册的方法,称为区域抽样。
时间抽样:
按时间间隔抽取行人的时间抽样、以及通过随机数造出电话号码进行调查的RDD等。
RDD(Random Digit Dialing ):
作为电话调查所独有的抽样方法,有RDD(Random Digit Dialing ) 和Plus1。
通过随机数产生与不同区域正在使用的电话号码位数相等的号码,并据此来造出电话号码的方法。
卡方检验
又名非参数检验:
是在总体分布未知或知之甚少的情况下,利用样本数据对总体分布形态等进行推断的方法。由于非参数检验方法在推断过程中不涉及有关总体分布的参数 ,因而得名为“非参数”检验。
检验所有类别是否包含相同频率或者用户指定比例一致
二项式检验:
检验二分发量(0,1)的两个类别的观察频率与指定概率参数的二项式分布下的期望频率是否一致。
K-S检验:
将变量的观察累积分布函数与指定的理论分布进行比较,该理论分布可以是正态分布、均匀分布、泊松分布或指数分布
游程检验:
检验某一变量的两个值的出现顺序是否随机。游程是相似的观察值的一个序列。游程太多或太少的样本不是随机样本。
许多参数检验都需要正态分布的变量。单样本 Kolmogorov-Smirnov 检验可用于检验变量(例如 income)是否为正态分布。
T检验与方差检验
在样本中比较连续变量的平均数,以检验均值之间的差异是否大于能被机遇所解释的差异。
T检验包括单样本t检验、独立样本T检验、配对样本T检验,都是用来通过样本均值对总体均值的推断检验。
适用于小样本的检验方法,当样本较小时(50以下),服从t分布;样本量较大时近似服从正态分布。在实际应用中,主要适用在两组样本的均值比较中。
单样本均值t检验:
某个变量的样本均数与给定总体的已知均数相比,其差异是否有显著。
数据要求:
小样本时来自的总体服从正态分布,如果大样本或者是数据收集的时候没有 特殊性,可以忽略正态分布的假设。
独立样本均值t检验:
根据两独立样本的数据,对两总体均值是否有显著差异进行推断 。
数据要求:
样本来自的总体服从正态分布 。
两样本必须相互独立,即:抽取其中一批样本对抽取另一批样本没有任何影响,两组样本的个案数可以不相等
要求两样本是大样本,小样本则必须来自正态总体
方差齐性检验:
是用来检验不同组的总体方差是否相等。
在一些统计推断的过程,要求进行比较的两组或多组数据的方差相等,即要求方差齐性,如均值比较、方差分析 。
配对样本均值t检验:
是指对同一样本进行两次测试所获得的两组数据,或对两个完全相同的样本在不同条件下进行测试所得的两组数据。
数据要求:
两样本数据必须两两配对,即:样本个数相同,个案顺序相同,如减肥茶效果、不同广告形式对 销售额的影响。
两总体服从正态分布(小样本情况下),样本容量>30的情况下,且数据收集是随机的,可以认为服从正态分布。
思路:先求出每对观测值的差,再将差值与总体均数0比较的t检验。
F检验/方差检验/ANOVA
单因素方差检验:
一个或多个因变量,自变量只有一个(分类变量)
检验一个因变量在一个分类自变量两组、三组或多组类别间的差异
多因素方差检验:
一个因变量,自变量有多个(既有分类变量也有连续变量)
分析一个因变量在两个或多个自变量所形成的组间的差异,其中一个自变量可看作处理变量
重复方差检验:
一个因变量,在多个时刻重复测量多次,自变量可以有也可以没有
F检验常用术语:
因素(Factor):
因素是可能对因变量有影响的变量,一般来说,因素会有不止一个水平,而分析的目的 就是考察或比较各个水平对因变量的影响是否相同。
水平(Level):
因素的不同取值等级称作水平,例如性别有男、女两个水平。
单元(Cell):
单元亦称试验单位(Experimental Unit),指各因素的水平之间的每种组合。指各因素各个水平的组合,例如在研究性别(二水平)、血型(四水平)对成年人身高的影响时 ,该设计最多可以有2*4=8个单元。注意在一些特殊的试验设计中,可能有的单元在样本中并不会出现,如正交设计。
元素(Element):
指用于测量因变量值的观察单位,比如研究职业与收入间的关系,月收入是从每一位受访者处得到,则每位受访者就是试验的元素 。
一个单元格内可以有多个元素,也可以只有一个,甚至没有元素。
注意:
元素不一定就等同于受访者个体!
重复测量数据
以家庭为单位收集资料
均衡(Balance):
如果在一个实验设计中任一因素各水平在所有单元格中出现的次数相同,且每个单元格内的元素数均相同,则该试验是均衡的,否则,就被称为不均衡。不均衡的实验设计在分析时较为复杂,需要对方差分析模型作特别设置才能得到正确的分析结果。
协变量(Covariates):
指对因变量可能有影响,需要在分析时对其作用加以控制的连续性变量,实际上,可以简单的把因素和协变量分别理解为分类自变量和连续性自变量。当模型中存在协变量时 ,一般是通过找出它与因变量的回归关系来控制其影响。
交互作用(Interaction):
如果一个因素的效应大小在另一个因素不同水平下明显不同,则称为两因素间存在交互作用。当存在交互作用时,单纯研究某个因素的作用是没有意义的,必须分另一个因素的不同水平研究该因素的作用大小。
如果所有单元格内都至多只有一个元素,则交互作用无法进行分析,只能不予考虑。
固定因素(Fixed Factor):
指的是该因素在样本中所有可能的水平都出现了。从样本的分析结果中就可以得知所有水平的状况,无需进行外推。 绝大多数情况下,研究者所真正关心的因素都是固定因素。
性别:只有两种
疗法:只有三种
随机因素(Random Factor):
该因素所有可能的取值在样本中没有都出现,目前在样本中的这些水平是从总体中随机抽样而来,如果我们重复该研究,则可能得到的因素水平会和现在完全不同。
这时,研究者显然希望得到的是一个能够“泛化”,即对所有可能出现的水平均适用的结果。这不可避免的存在误差,需要估计误差的大小,因此被称为随机因素。
方差检验总结
方差分析是从数据间的差异入手,分析哪些因素是影响数据差异的众多因素中的主要因素,用以解决多总体均值的比较问题。
方差分析核心问题:从数据差异角度看
观测变量的数据差异=控制因素引起的差异+随机因素造成的差异
方差分析正是要分析响应变量的变动是否主要是由控制因素的造成的,还是由随机因素造成的,以及控制因素的各个水平是是如何对响应变量影响的
前提:假定在控制因素的不同水平下总体服从方差相等的正态分布(需要进行方差齐性检验)
检验控制因素(自变量)的不同水平下,各总体的分布是否存在显著差异,进而判断控制因素是否对响应变量产生了显著影响
H0: 在控制因素的不同水平下,各总体均值无显著差异,即不同水平下的控制因素的影响不显著