小岛宽之《极简统计学》读书笔记

最新推荐文章于 2023-09-05 10:57:27 发布

weixin_37615633

最新推荐文章于 2023-09-05 10:57:27 发布

阅读量528

点赞数

统计学可以分为描述和推断两个部分。

即使数据是“不确定的”，他们也有自己固有的“特点”和“特征”。这种固有的特点和特征叫作“分布的特性”。

统计学对于一堆数据，进行了信息压缩，虽然牺牲了原始数据的细节，但这种牺牲反而刻画出了数据分布和其背后的特征，所谓压缩，可以理解为总结数据要点的一种操作。

平均值是从数据中选出的一个代表数值，在直方图中是使左右平衡的点；数据在平均值的周边分布，反映了数据的集中趋势；多次出现的数据对平均值的影响力大；分布左右对称的情况下，其对称轴通过的点即平均值。对数据取平均值的方法不止一个，根据需要有不同处理手法，最为常用的是算术平均，这种平均可以在合计的意义上保持其本质；对于增长率等情况，想在乘法意义上保持其本质则应该使用几何平均；其他还有均方根平均、调和平均等等。

方差是可以评价数据波动情况的量，但是以方差来刻画数据的波动特征有两点不方便。第一，作为表示波动情况的数值太大了；第二，单位发生了变化。将方差开平方后得到标准差（S.D.）这个统计量，使用标准差刻画数据的波动特征则相对比较合适，S.D.是表示以平均值为基点，数据大致扩散到多远的程度的刻画量。

知道了标准差，从数据中我们还可以知道些什么呢？第一，可以明白一组数据中某一个数据的意义。一组数据中的某一个数据是否特殊，应当以S.D.为基准来看待，比如这个数据是处于一个标准差范围内还是两个两个标准差范围内等等。如果数据的偏离处在一个S.D.以内，可以说是“平常”的数据，而处在两个S.D.以外，则可以说这个数据是“特殊”的数据。第二，可以通过比较多个数据组得出不同。比如说，两个人分别10次考试的成绩作为两个数据组，分析这两个数据组的特征差异。

仅凭收益率的平均值不能判断某一产品是否属于优良投资，S.D.也是一个很重要的参数。一个比较合适的做法是将两者综合考虑，将收益率的平均值比上收益率的S.D.，我们将收益率的平均值称为回报（纵坐标），收益率的S.D.称为风险（横坐标），以回报和风险的综合效果作为投资产品的一个优良衡量标准。比较不同产品时，可以过原点和各自的比值点作直线，即可得到各产品的斜率。斜率较大者品质较为优良。如此即可将回报和风险各不相同的产品进行一个统一的比较。

标准正态分布的平均值为0，标准差为1。距离平均值1个S.D.范围以内的数据的相对频数为0.6826（7成弱）；距离平均值2个S.D.范围以内的数据的相对频数为0.9544（9成5强）。标准正态分布的95%预测命中区间为-1.96至+1.96。满足95%预测命中的区间还有很多，但是由于正态分布左右对称的特点，选择其他区间要满足95%命中的话，会导致需要预测的范围变大，即相应的降低了预测的精度。总之这个区间要尽可能选在数据集中的区域。需要注意的是，95%预测命中区间和95%置信区间不是同一个概念。

“95%预测命中区间”是指“95%的数据在此区间”，因此，认为“下次观测到的数据进入此区间有95%的概率”。但是，置信区间的情况不是这样。“95%置信区间”是指“无论出现什么样的观测值x,反复以此方法进行数据值N的估计，其中95%的估计结果是命中的”。也就是说，如果持续进行区间估计，可求得对应观测值x的各种各样的区间，但在100次中有95次真正的N落在求出的区间内。（置信区间是针对因变量均值的区间，而预测区间是针对因变量个体值的区间。比如，让你预测一个高中班级中学生的平均身高，跟让你预测该班级中具体某一个学生的身高）。

可以说，统计学的方法论与目前的科学法则的形式稍有不同，这就意味着要从一开始就放弃100%命中。

从部分推测整体可以说是统计学的妙趣所在，推论统计的工作，是关于从观测来的数据到整体的推断和总结。比如，我们做酱汤的时候，需要判断味道是否合适，于是，用勺子舀着喝一点，这就是根据部分推断整体。但是偶尔会尝到稍淡或稍浓的地方，所以酱汤总体的味道与试尝的味道多少有些偏差也是正常的。同样，也必须做好统计推论与总体并非完全一致，而是有一定偏差的思想准备。

进行充分的观测，就能相当鲜明地捕捉总体的情况。现实中很多情况并不允许我们进行大量的观测，在此种情况下，如何实现从不那么大量的观测去推断总体的特点呢？

虽然通过“随机抽样法”观测足够多的次数确实可以明确这些分布，但我们却无法对周围的不确定现象进行那么多次观测（比如科学试验一般很难获取规模庞大的数据）。

假如我们实际观测到了1个数据，可以从它推测总体的什么呢？可以推测“总体的平均值接近这个观测到的值”吧，因为平均值是从分布中选取的具有代表性的数据，数据的分布有向平均值聚集的趋势。假设通过什么手段知道了总体的标准差，那我们就能知道数据的集中程度，对总体做一个更详细的推测。即使分布不是正态分布而是一般分布，根据切比雪夫不等式，通过选取适当的k，普通数据也视为分布在-k个S.D.到k个S.D.之间，而这个范围之外的数据视为特殊数据（比如正态分布是k = 2，一般距离平均值大于k个S.D.以上的数据占全体数据的比例不大于1/(k^2)，现实中的一般分布取3或6个S.D.的比较常用？）。

观测1个数据推测很容易具有偶然性，所以一般是观测n个数据再取算术平均即为样本均值，根据大数法则，观测的数据个数n越大，样本均值接近总体均值的可能性越高（大样本推断）。在戈塞特之前的学者们，以样本标准差作为总体标准差使用，确实，如果样本数n够大，没什么问题。但是，戈塞特发现，如果样本数n小，就会产生无法忽视的大的偏差，于是他发现了t分布，使得实现小样本自然估计成为可能（小样本推断）。

（书本后记）统计学理论中有某种秘诀的“飞跃”，推论统计的方法是从部分推论整体的一种归纳法。习惯了数学中完美无缺的演绎法的人可能觉得别扭，要领悟这种充满飞跃的理论体系，必须将头脑从过往习惯的思考方法中切换出来。统计学正是因为有了这样的飞跃，才有了更加密切联系“现实”的可能，这也正是统计学的活力和魅力所在。

weixin_37615633

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
小岛宽之《极简统计学》读书笔记

统计学可以分为描述和推断两个部分。即使数据是“不确定的”，他们也有自己固有的“特点”和“特征”。这种固有的特点和特征叫作“分布的特性”。统计学对于一堆数据，进行了信息压缩，虽然牺牲了原始数据的细节，但这种牺牲反而刻画出了数据分布和其背后的特征，所谓压缩，可以理解为总结数据要点的一种操作。平均值是从数据中选出的一个代表数值，在直方图中是使左右平衡的点；数据在平均值的周边分布，反映了数据的集中趋...
复制链接

扫一扫