统计学基础知识点刷题(task1)

参考视频:可汗学院《统计学》
参考书籍:《深入浅出统计学》

笔记内容

概念1:样本和总体
  1. 样本均值与总体均值
    样本均值用 X X X表示,总体均值用 μ \mu μ表示,计算方式如下:
    X = ( ∑ i = 1 n x i ​ ) / n X=(\sum_{i=1}^nx_i​)/n X=(i=1nxi)/n

μ = ( ∑ i = 1 N x i ​ ) / N μ=(\sum_{i=1}^Nx_i​)/N μ=(i=1Nxi)/N

个人理解:

  • 此处 x i x_i xi​表示观测值,而 X i X_i Xi​表示随机变量,二者是不同的,书写时要注意。
  • N表示总体的数目,而n<N,表示样本数目。
  • 可以将总体理解为一个大的集合,而样本是能够在一定程度上表示该集合的子集(这一点与信息论里面的典型集概念很像)。当然,并不是任意样本都能表示总体,必须是随机采样而来的才行。
概念2:总体方差与样本方差
  1. 表征意义
    均值、众数和中位数等指标用于表征数据的偏移,还需要方差(variance)用于表征数据的离散分布,体现数据的分散(dispersion)程度。
  2. 计算方式
    总体方差一般用 σ 2 \sigma^2 σ2来表示,计算公式如下:
    σ 2 = ( ∑ i = 1 N ​ ( x i ​ − μ ) 2 ) / N \sigma^2=(\sum_{i=1}^N​(x_i​−μ)^2)/N σ2=(i=1N(xiμ)2)/N
    样本方差一般用 S 2 S^2 S2来表示,计算公式如下:
    S 2 = ( ∑ i = 1 n ​ ( x i ​ − x ‾ ) 2 ) / ( n − 1 ) S^2=(\sum_{i=1}^n​(x_i​−\overline{x})^2)/(n−1) S2=(i=1n(xix)2)/(n1)
    上式被称为“总体方差的无偏估计”

个人理解:
按照总体方差的计算公式来看,样本方差的计算公式按理来说分母应该是n,为什么此处是(?−1)呢?
(1)对于抽样样本来说,其样本均值往往并不是靠近总体均值,而是靠近样本的中心,这样会导致分子(平方和)偏小,如果还是用分母为n的公式计算,将会导致样本方差偏小(用于估计总体方差时会偏小)。
(2)也可理解为样本均值x包含了一个信息自由度(通过n-1个样本及x即可确定剩下的xn​,所以实际自由度为n-1),因而对应的分母应该为n-1。
关于偏差(bias)和方差(variance)的权衡在机器学习中很常见(trade-off)。训练集过拟合就会低偏差高方差,模型泛化能力差,而欠拟合一般会造成高偏差低方差(高偏差高方差也有可能),具体细节可参考深度学习吴恩达相关课程。

概念3:标准差
  1. 为什么有了方差还需要标准差?
    因为方差的单位与原始数据单位相比多了一个平方,而标准差与原始数据单位量级相同,便于计算。标准差还可帮助计算数据点落在距离均值数倍标准差之内的概率。
  2. 计算公式
    σ = σ 2 = ( ∑ i = 1 N ​ ( x i ​ − μ ) 2 ) / N \sigma=\sqrt{\sigma^2}=\sqrt{(\sum_{i=1}^N​(x_i​−μ)^2)/N } σ=σ2 =(i=1N(xiμ)2)/N
  3. 公式推导
    σ 2 = ( ∑ i = 1 N ​ ( x i ​ −
  • 2
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值