笔记内容
概念1:样本和总体
- 样本均值与总体均值
样本均值用 X X X表示,总体均值用 μ \mu μ表示,计算方式如下:
X = ( ∑ i = 1 n x i ) / n X=(\sum_{i=1}^nx_i)/n X=(i=1∑nxi)/n
μ = ( ∑ i = 1 N x i ) / N μ=(\sum_{i=1}^Nx_i)/N μ=(i=1∑Nxi)/N
个人理解:
- 此处 x i x_i xi表示观测值,而 X i X_i Xi表示随机变量,二者是不同的,书写时要注意。
- N表示总体的数目,而n<N,表示样本数目。
- 可以将总体理解为一个大的集合,而样本是能够在一定程度上表示该集合的子集(这一点与信息论里面的
典型集
概念很像)。当然,并不是任意样本都能表示总体,必须是随机采样而来的才行。
概念2:总体方差与样本方差
- 表征意义
均值、众数和中位数等指标用于表征数据的偏移,还需要方差(variance)用于表征数据的离散分布,体现数据的分散(dispersion)程度。 - 计算方式
总体方差一般用 σ 2 \sigma^2 σ2来表示,计算公式如下:
σ 2 = ( ∑ i = 1 N ( x i − μ ) 2 ) / N \sigma^2=(\sum_{i=1}^N(x_i−μ)^2)/N σ2=(i=1∑N(xi−μ)2)/N
样本方差一般用 S 2 S^2 S2来表示,计算公式如下:
S 2 = ( ∑ i = 1 n ( x i − x ‾ ) 2 ) / ( n − 1 ) S^2=(\sum_{i=1}^n(x_i−\overline{x})^2)/(n−1) S2=(i=1∑n(xi−x)2)/(n−1)
上式被称为“总体方差的无偏估计”
个人理解:
按照总体方差的计算公式来看,样本方差的计算公式按理来说分母应该是n,为什么此处是(?−1)呢?
(1)对于抽样样本来说,其样本均值往往并不是靠近总体均值,而是靠近样本的中心,这样会导致分子(平方和)偏小,如果还是用分母为n的公式计算,将会导致样本方差偏小(用于估计总体方差时会偏小)。
(2)也可理解为样本均值x包含了一个信息自由度(通过n-1个样本及x即可确定剩下的xn,所以实际自由度为n-1),因而对应的分母应该为n-1。
关于偏差(bias)和方差(variance)的权衡在机器学习中很常见(trade-off)。训练集过拟合就会低偏差高方差,模型泛化能力差,而欠拟合一般会造成高偏差低方差(高偏差高方差也有可能),具体细节可参考深度学习吴恩达相关课程。
概念3:标准差
- 为什么有了方差还需要标准差?
因为方差的单位与原始数据单位相比多了一个平方,而标准差与原始数据单位量级相同,便于计算。标准差还可帮助计算数据点落在距离均值数倍标准差之内的概率。 - 计算公式
σ = σ 2 = ( ∑ i = 1 N ( x i − μ ) 2 ) / N \sigma=\sqrt{\sigma^2}=\sqrt{(\sum_{i=1}^N(x_i−μ)^2)/N } σ=σ2=(i=1∑N(xi−μ)2)/N - 公式推导
σ 2 = ( ∑ i = 1 N ( x i −