数理统计知识回顾

原创 2013年12月02日 12:59:50

1 基本概念

  1. 样本、总体与统计量
    • 研究对象的全体称为 总体 , 总体对应一个随机变量 X 和分布 F(x)
    • 单个研究对象称为 个体
    • n 个个体称为 样本 (X1,,Xn) , 称 n 为样本容量
    • 一般地, 样本是和总体独立同分的一串随机变量
    • 统计量: 样本的函数, 和未知参数无关
  2. 常见的统计量
    • 样本均值: Xˉ=1ni=1nXi
    • 样本方差: S2=1n1i=1n(XiXˉ)2
    • 样本协方差 1n1i1=n(XiXˉ)(YiYˉ)2
    • 样本相关系数
    ρˆ(X,Y)=i=1n(XiXˉ)(YiYˉ)i=1n(XiXˉ)2i=1n(YiYˉ)2

2 点估计、区间估计

  1. 点估计
    • 设总体均值为 μ , 方差为 σ2 , 均为待估计的参数
    • 样本均值 Xˉ 是均值的无偏估计
    • 样本方差 S2σ2 的无偏估计
  2. 正态总体下点估计的性质
    • 设总体服从 N(μ,σ2) 的分布, 参数均未知
    • Xˉ=1ni=1nXi
    • XˉN(μ,σ2n)标准化后有Xˉμσ/nN(0,1)
    • (n1)S2σ2χ2(n1)
    • σS=S2 代替得
      XˉμS/nt(n1)
  3. 正态单总体均值和方差的区间估计
    • σ2 已知时, μ 的置信水平为 1α 的置信区间为
    [Xˉ±σnUα/2]
    • σ2 未知时, μ 的置信水平为 1α 的置信区间为
    [Xˉ±Sntα/2(n1)]

3 假设检验

  1. 单总体均值的假设检验 ( σ2 已知)
    • H0:μ=μ0,H1:μμ0
    • 原假设成立时
    Z=Xˉμ0σ/nN(0,1)
    • 对立假设成立时, |Z| 倾向于取较大的值, 由实际的样本计算 |Z| 的观测值 |z|value
    • |z|value 是否偏大
      pvalue=P(|Z||z|value)

      的大小来衡量, 称此尾概率为 pvalue

    • 如果 pvalue 小于给定的显著性水平, 则拒绝原假设
  2. 单总体均值的假设检验 ( σ2 未知)
    • H0:μ=μ0,H1:μμ0
    • 原假设成立时
    t=Xˉμ0S/nt(n1)
    • |t|value 是否偏大用
      pvalue=P(|t||t|value)

      的大小来衡量, 称此尾概率为 p值

    • 如果 pvalue 小于给定的显著性水平(小概率的上限), 则拒绝原假设
  3. 两总体的均值差的检验
    • XN(μ1,σ2),YN(μ2,σ2)σ2 为未知参数
    • 分别从两个独立总体中抽取样本 X1,,Xn1,Y1,,Yn2
    • 检验如下假设 H0:μ1=μ2H1:μ1μ2
    • 取检验统计量为
      t=XˉYˉSw1n1+1n2
    • 原假设成立时 tt(n1+n22)
    • 对立假设成立, 检验统计量 |t| 倾向于取较大的值
  4. 检验方法
    • 由实际的样本计算 |t| 的观测值 |t|value
    • |t|value 是否偏大用
      pvalue=P(|t||t|value)

      的大小来衡量, 称此尾概率为 p值

    • 如果 pvalue 小于给定的显著性水平(小概率的上限), 则拒绝原假设
  5. 一点注记
    • 这里的 Sw=S2w , 其中
      S2w=(n11)S2X+(n21)S2Yn1+n22
    • 其中 (n11)S2X=i=1n1(XiXˉ)2,(n21)S2Y=j=1n2(YiYˉ)2
    • 代入可得
      S2w=i=1n1(XiXˉ)2+j=1n2(YiYˉ)2n1+n22
    • 可以证明, 所得的 S2w 实际上是 σ2 的无偏估计
    • (n1+n22)S2wσ2χ2(n1+n22)
  6. F 检验
    • 自由度为 n1+n22 的 t 分布的平方 服从自由度为 F(1,n1+n22) 的F分布
    • 考虑上面两样本 t 检验统计量的平方形式
      t2=(XˉYˉ)2(1n1+1n2)1(n1+n22)S2wn1+n22=SSA/1SSE/(n1+n22)
  7. F检验续
    • 考虑上述式子的分子
    • μˉ=n1Xˉ+n2Yˉn1+n2 为两总体的总平均值
      ===(XˉYˉ)2(1n1+1n2)1n1(Xˉμˉ)2+n2(Yˉμˉ)2n1n22(XˉYˉ)2(n1+n2)2+n2n21(XˉYˉ)2(n1+n2)2n1n2n1+n2(XˉYˉ)2
  8. F检验续
    • 记总平方和为 SST=i=1n1(Xiμˉ)2+i=1n2(Yiμˉ)2
    • 两群体之间差异平方和为 SSA=n1(Xˉμˉ)2+n2(Yˉμˉ)2
    • 两群体内差异平方和为 SSE=i=1n1(XiXˉ)2+j=1n2(YiYˉ)2
    • 则有 SST=SSA+SSE , 在原假设成立的条件下可以证明:
    SSTσ2χ2(n1+n21),  SSAσ2χ2(1),  SSEσ2χ2(n1+n22)
    • 此时有
    t2=SSA/1SSE/(n1+n22)F(1,n1+n22)

4 单因素方差分析

  1. 三组样本均值的比较
    • 如果有三组样本, 记起均值分别为 μ1,μ2,μ3检验其均值是不是全部相等, 即检验 H0:μ1=μ2=μ3H1:不全相等
    • 采用哪个统计量可以度量 原假设和对立假设之间的差异呢
    • 采用两两比较的方法-—学过的
    • 可以猜想如果类别数从 3 增加到10
  2. 检验统计量的构造
    • Xˉ=1nj=13i=1njXji
    • 其中 n=n1+n2+n3
    • SSA=j=13nj(XˉjXˉ)2其中Xˉj=1nji=1njXji 为第 j组的均值, 则 SST 度量了三组样本的均值和总均值之间的差别
    • 可以证明 原假设成立时, 有 SSAσ2χ2(2)
    • 检验方法 SSAσ2 偏大时拒绝原假设
    • 存在的问题: σ2 未知, 怎么办
  3. σ2 直接用估计值代替就可以吗
    • SST=j=13i=1nj(XjiXˉ)2 为总平方和
    • SSE=j=13i=1nj(XjiXˉj)2度量了随机误差
    • 可以证明 SSE/(n3) 实际上是误差方差 σ2 的无偏估计
    • σ2 用估计值代替后的分布难以刻画,为使得分子分布具有可比性,分子除以相应的自由度
    • 检验统计量采用
      F=SSA/(31)SSE/(n3)
  4. 检验统计量的分布
    • 可以证明 原假设成立时 FF(2,n3)
    • 不妨设 σ2 为三组样本的共同方差, 则 H0 成立时
      SSTσ2χ2(n1),SST=SSA+SSE
    • 从而有
      SSAσ2χ2(2),  SSEσ2χ2(n3)
    • SSASSE 相互独立
  5. 单因素方差分析的R实现
    fc<-sample(1:3,100,replace=TRUE)
    y<-fc+rnorm(100)
    fc<-as.factor(fc)
    
    boxplot(y~fc,col=2:4)
    

    box.png

    fc.ao<-aov(y~fc)
    anova(fc.ao)
    
    Analysis of Variance Table
    
    Response: y
              Df  Sum Sq Mean Sq F value    Pr(>F)
    fc         2  77.498  38.749  35.634 2.497e-12 ***
    Residuals 97 105.480   1.087
    ---
    Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
    

java基础知识回顾(一)

java基础    2014.3.12         发现一个很奇怪的事情,今天登陆CSDN怎么也登陆不了,浏览csdn上的其他的东西都能正常显示。所以只能先写在word文档里,明天再贴上去,鼓励自...
  • lanonola
  • lanonola
  • 2014年03月13日 08:53
  • 1160

机器学习的概率与统计知识复习总结

机器学习中,很多算法的推导,需要概率和统计的很多知识。学校里学的时候,基本是囫囵吞枣,也忘得差不离了。 现在复习一下,找一些概率与统计这门课的感觉。主要理解下什么是随机变量,与概率的关系,要样本干什么...
  • viewcode
  • viewcode
  • 2013年04月25日 11:03
  • 9803

不懂智能投顾?看这一篇就足够了

作者: 李涛 2016-08-11 智能投顾(robo-advisor),是指网络虚拟人工智能产品基于客户自身的理财需求、资产状况、风险承受能力、风险偏好等因素,运用现代投资组合理论,通过算法搭建数据...
  • dj0379
  • dj0379
  • 2016年10月18日 17:57
  • 5587

数理统计知识整理——回归分析与方差分析

数理统计知识整理——回归分析与方差分析
  • xiahouzuoxin
  • xiahouzuoxin
  • 2014年04月21日 15:08
  • 41868

数据挖掘中所需的概率论与数理统计知识

数据挖掘中所需的概率论与数理统计知识   (关键词:微积分、概率分布、期望、方差、协方差、数理统计简史、大数定律、中心极限定理、正态分布) 导言:本文从微积分相关概念,梳理到概...
  • greenapple_shan
  • greenapple_shan
  • 2015年04月04日 22:07
  • 717

数据挖掘中所需的概率论与数理统计知识、上

转载:http://blog.csdn.net/v_july_v/article/details/8308762
  • greenapple_shan
  • greenapple_shan
  • 2014年10月07日 11:27
  • 890

数据挖掘中所需的概率论与数理统计知识

http://blog.csdn.net/v_july_v/article/details/8308762 数据挖掘中所需的概率论与数理统计知识   (关键词:微积分、概率分布、期望、方差、协...
  • lostinai
  • lostinai
  • 2015年10月29日 17:30
  • 704

数据挖掘中所需的概率论与数理统计知识,上

http://www.cnblogs.com/v-July-v/archive/2012/12/17/3125418.html 数据挖掘中所需的概率论与数理统计知识、上 ...
  • mmc2015
  • mmc2015
  • 2016年09月26日 10:01
  • 1057

机器学习之概率论与数理统计基础知识-(2)随机变量和数字特征

机器学习之概率论与数理统计基础知识-(2)随机变量和数字特征
  • Neil_Pan
  • Neil_Pan
  • 2016年06月18日 13:19
  • 1824

据挖掘中所需的概率论与数理统计知识

据挖掘中所需的概率论与数理统计知识   (关键词:微积分、概率分布、期望、方差、协方差、数理统计简史、大数定律、中心极限定理、正态分布) 导言:本文从微积分相关概念,梳理到...
  • Losteng
  • Losteng
  • 2016年04月10日 17:58
  • 1698
内容举报
返回顶部
收藏助手
不良信息举报
您举报文章:数理统计知识回顾
举报原因:
原因补充:

(最多只允许输入30个字)