综述
这几天读了《统计学》的前几章,虽然这些知识在之前数学学习的过程中都有过接触,但是发现真正看了这本书之后才有中醍醐灌顶的感觉。下面把前面几张中关键的知识点做一下标记,方便自己日后查看。
1.直方图
2.平均数和标准差
3.数据的正态近似
1.直方图
直方图是统计学中最常使用的一种统计图。如下图(来自统计学课本),基于下图分析几个点。
(1).坐标轴
横坐标是教育水平,纵坐标是每年的百分数
特别注意一下纵坐标。纵坐标是使用密度尺度绘制的。所以直方图的高度表示拥挤程度,比如12~13年的柱子较高,表示受教育的人数在这个时间段比较多。如果我们想要探究这个时间段究竟有多少人,我们可以通过计算这个柱子的面积得到这个时间段的人数占总人数的百分比,然后乘以总人数即可。
2.平均数和标准差
(1)平均数和标准差的定义就不说了。我们分析一下他们在统计学中作用。
平均数通常被用来寻求中心,中位数也同样如此;
标准差度量了关于平均数的散布程度,四分位数间距也是散布的另一种测度。
(2)平均数和直方图的关系
这个关系还是比较重要的,在这里一定要与中位数相区别。
平均数:衡量的是数据的平衡性,在直方图中在平均数出整个直方图可以维持左右两端的平衡。
中位数:将直方图的划分为面积相等的两个部分。
上图中的中间直方图所示,中位数仍然是2,但是平均数会向右倾斜一些。因为平均数中位数右边的面积比左边的面积离得远一些。所以我们说在直方图中有长右尾部的平均数大于中位数,同样有长左尾部的平均数小于中位数
(3)标准差(SD)
SD度量了偏离平均数的大小,指出了数列中的数离他们的平均数有多远。其实数列中接近68%的项在离平均数的1SD范围内,其余的32%离的较远。特别地,95%的项在距平均数的2SD范围内,其余的5%则远离之。
SD=根号下(项的平方的平均数)
3.数据的正态近似
(1)图像
横轴表示的是单位长度,纵轴是当下单位长度的的百分数。那么什么是单位长度呢?单位长度是指当前值与平均数偏差几个SD如果超过平均数就是正的,超过几个SD就是几,如果少于平均数则是负的,同样少几个SD就是负几。
(2)正态近似
我们通过上文分析发现直方图和正态曲线间还有很多相通的地方的,那么我们可以将一些形态近似正态曲线的直方图转化为正态曲线。
比较困难是的纵轴,如下图所示:
我们衡量一下最高坐标,每SD有50%=每2.5英寸50%=每英寸20%
上文提到的图像都是近似于正态分布的,但是对于一些倾斜数据呢?这样的数据分布显然是没法拟合的,我们一般使用百分位数来衡量。特别是四分位数也就是75%-25%间数据大小。