统计,数据和计算机
统计是收集,处理,分析,解释数据并从数据中得出结论的科学。
统计分成两大类,描述统计和推断统计。描述统计是研究数据收集,处理,描述的统计的方法。推断统计是研究如何利用样本数据推断总体特征的统计学方法(参数估计,假设检验)。
变量的分类:类别变量(有序,无序),数值变量(离散,连续)。
随机抽样方法:简单随机抽样,分层抽样,系统抽样(等距抽样),整群抽样(以群作为抽样单位)。
用图表展示数据
定性数据:
频数分布表
条形图:展示各类别绝对值
饼图:展示一个样本结构
环形图:比较多个样本结构
定量数据:
频数分布表
直方图,茎叶图,箱线图:展示分布特征
散点图:考察变量之间关系
雷达图,轮廓图:比较样本相似性
用统计量描述数据
水平:均值,中位数,四分位数,百分位数,众数
差异:极差,四分位差,方差和标准差,离散系数(标准差/均值,用于比较不同样本数据的离散程度),标准分数
形状:偏态系数SK(数据分布的不对称性),峰态系数K(数据分布峰值的高低)
对称分布的偏态系数=0,偏态系数>0,右偏,偏态系数<0,左偏。
偏态系数的绝对值大于1时,视为严重偏态分布;偏态系数的绝对值在0.5-1之间时,视为中等偏态分布。
标准正态分布的峰态系数为0,K>0,尖峰分布,K<0,扁平分布。
概率分布
离散型
伯努利分布 Bern(p):期望为p,方差为p(1-p)
二项分布 Bin(n,p):期望为np,方差为np(1-p)
泊松分布 Pois(
λ
\lambda
λ):期望为
λ
\lambda
λ,方差为
λ
\lambda
λ
几何分布 Geom(p):期望为1/p,方差为(1-p)/p^2
负二项分布 NB(k,p):期望为k/p,方差为k(1-p)/p^2
二项分布是n个独立伯努利分布之和。
负二项分布是k个独立几何分布之和。
当二项分布n ->
∞
\infty
∞,p -> 0, np ->
λ
\lambda
λ时,可视为泊松分布。
连续型
均匀分布 U(a,b):期望为(a+b)/2,方差为(b-a)
2
^2
2/12
正态分布N(
μ
\mu
μ,
σ
2
\sigma^{2}
σ2):3-
σ
\sigma
σ法则,68.27%,95.45%,99.73%
指数分布Exp(
β
\beta
β):期望为
β
\beta
β,方差为
β
2
\beta^{2}
β2
伽马分布Gamma(
α
\alpha
α,
β
\beta
β):期望为
α
β
\alpha\beta
αβ,方差为
α
β
2
\alpha\beta^{2}
αβ2
贝塔分布Beta(
α
\alpha
α,
β
\beta
β)
卡方分布
χ
2
(
n
)
\chi^{2}(n)
χ2(n):期望为n,方差为2n
t分布t(n):期望为0,方差为n/(n-2)
F分布F(n1,n2)
统计量
样本统计量的分布也称抽样分布。
样本均值分布:不论原来的总体是否服从正态分布,样本均值的概率分布都将趋于正态分布。其期望为总体均值 μ \mu μ,方差为总体方差的1/n。这就是中心极限定理:样本均值依分布收敛于正态分布。
样本比例分布:当样本量很大时(np>10),样本比例分布可以用正态分布表示。设总体比例为 π \pi π,样本比例为p,则p ∼ \sim ∼N( π , π ( 1 − π ) n \pi, \frac{\pi(1-\pi)}{n} π,nπ(1−π))。
样本方差分布:若样本来自正态分布总体,则 ( n − 1 ) s 2 σ 2 \frac{(n-1)s^{2}}{\sigma^{2}} σ2(n−1)s2服从 χ 2 ( n − 1 ) \chi^{2}(n-1) χ2(n−1)。
当样本均值或样本比例的总体标准差未知时,可以用样本标准差(标准误差)替代。
参数估计
基本原理
参数估计是用样本统计量去估计总体的参数。参数估计有点估计和区间估计。
点估计:用估计量的某个取值直接作为总体参数的估计值。他的缺陷是没法给出估计的可靠性,也没法说出点估计与总体参数真实值接近的程度。
区间估计:在点估计的基础上给出总体参数估计的一个估计区间,该区间通常是由样本统计量加减估计误差而得到的。
置信区间:含有置信度/置信水平的估计区间。置信水平指多次构造置信区间,区间中包含参数真值的概率。常用置信水平为0.9,0.95,0.99。
评估标准
无偏性:指估计量的期望等于被估计的总体参数。
有效性:指估计量的方差尽可能小。
一致性:指随着样本量增大,点估计量的值越来越接近被估总体的参数。
参数估计所使用的检验方法
一个总体
均值:大样本或总体方差已知用z检验,小样本且总体分布未知用t检验。
比例:大样本用z检验
方差:总体服从正态分布,用
χ
2
\chi^{2}
χ2检验
两个总体
均值差:独立大样本用z检验;独立小样本若总体方差已知用z检验;若总体方差未知用t检验;配对样本用t检验。
比例差:独立大样本用z检验
方差比:两个总体都服从正态分布,用f检验。
假设检验
假设检验与参数估计类似,但角度不同。参数估计是利用样本信息推断未知的总体参数,而假设检验则是先对总体参数提出一个假设值,然后利用样本信息判断这一假设是否成立。
步骤:
(1)提出原假设和备择假设
(2)抽样,并根据统计方法计算样本统计量的值。
(3)在确定显著性水平下,计算统计量服从分布的临界值;或者直接计算p值。
(4)根据统计量与临界值的大小关系/p值与显著性水平的大小关系得出结论。
原假设是我们想要推翻的假设
备择假设是我们想要收集证据予以支持的假设。
第1类错误,原假设为真拒绝原假设所犯的错误。拒真
第2类错误,原假设为假没有拒绝原假设所犯的错误。取伪
显著性水平:犯第1类错误的概率,记为
α
\alpha
α
拒绝域:由显著性水平和相应临界值围成的拒绝原假设的区域
检验统计量:根据样本观测结果计算的对原假设做出决策的某个统计量
p值:犯第1类错误的真实概率。指当原假设成立时,所得到的样本结果会像实际观测结果那么极端或更极端的概率。
补充
大数定理:样本均值依概率收敛于总体均值。
极大似然估计:是点估计的一种方法。基本思想是求一个未知参数的估计值,在这个估计值下获取到已知样本的可能性是最大的。