统计学基础知识点刷题（task1）

最新推荐文章于 2020-06-26 22:43:19 发布

sm376624607

最新推荐文章于 2020-06-26 22:43:19 发布

阅读量602

点赞数 2

分类专栏：统计学文章标签：统计学

本文链接：https://blog.csdn.net/sm376624607/article/details/88022534

版权

参考视频：可汗学院《统计学》
参考书籍：《深入浅出统计学》

笔记内容

概念1:样本和总体

样本均值与总体均值
样本均值用 $X$ 表示，总体均值用 $\mu$ 表示，计算方式如下：
$X=(\sum_{i=1}^nx_i)/n$

$μ=(\sum_{i=1}^Nx_i)/N$

个人理解:

此处 $x_i$ 表示观测值，而 $X_i$ 表示随机变量，二者是不同的，书写时要注意。

N表示总体的数目，而n<N，表示样本数目。

可以将总体理解为一个大的集合，而样本是能够在一定程度上表示该集合的子集（这一点与信息论里面的典型集概念很像）。当然，并不是任意样本都能表示总体，必须是随机采样而来的才行。

概念2：总体方差与样本方差

表征意义
均值、众数和中位数等指标用于表征数据的偏移，还需要方差（variance）用于表征数据的离散分布，体现数据的分散（dispersion）程度。
计算方式
总体方差一般用 $\sigma^2$ 来表示，计算公式如下：
$\sigma^2=(\sum_{i=1}^N(x_i−μ)^2)/N$
样本方差一般用 $S^2$ 来表示，计算公式如下：
$S^2=(\sum_{i=1}^n(x_i−\overline{x})^2)/(n−1)$
上式被称为“总体方差的无偏估计”

个人理解:
按照总体方差的计算公式来看，样本方差的计算公式按理来说分母应该是n，为什么此处是(?−1)呢？
（1）对于抽样样本来说，其样本均值往往并不是靠近总体均值，而是靠近样本的中心，这样会导致分子（平方和）偏小，如果还是用分母为n的公式计算，将会导致样本方差偏小（用于估计总体方差时会偏小）。
（2）也可理解为样本均值x包含了一个信息自由度（通过n-1个样本及x即可确定剩下的xn,所以实际自由度为n-1），因而对应的分母应该为n-1。
关于偏差（bias）和方差（variance）的权衡在机器学习中很常见（trade-off）。训练集过拟合就会低偏差高方差，模型泛化能力差，而欠拟合一般会造成高偏差低方差（高偏差高方差也有可能），具体细节可参考深度学习吴恩达相关课程。

概念3：标准差

为什么有了方差还需要标准差？
因为方差的单位与原始数据单位相比多了一个平方，而标准差与原始数据单位量级相同，便于计算。标准差还可帮助计算数据点落在距离均值数倍标准差之内的概率。
计算公式
$\sigma=\sqrt{\sigma^2}=\sqrt{(\sum_{i=1}^N(x_i−μ)^2)/N }$
公式推导

最低0.47元/天解锁文章

sm376624607

关注

2
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
统计学基础知识点刷题（task1）

参考视频：可汗学院《统计学》参考书籍：《深入浅出统计学》笔记内容概念1:样本和总体样本均值与总体均值样本均值用XXX表示，总体均值用μ\muμ表示，计算方式如下：X=(∑i=1nxi)/nX=(\sum_{i=1}^nx_i)/nX=(i=1∑nxi)/nμ=(∑i=1Nxi)/Nμ=(\sum_{i=1}^Nx_i)/Nμ=(i=1∑Nxi)/N个人理解...
复制链接

扫一扫