一、均值(期望)、方差、标准差
下面给出这些概念的公式描述:
均值(期望):
方差:
标准差:
均值(期望)描述的是样本集合的中间点(平均值),但是它告诉我们的信息是有限的,而标准差给我们描述的是样本集合的各个样本点到均值的距离之平均。
以这两个集合为例,[0, 8, 12, 20]和[8, 9, 11, 12],两个集合的 均值都是10,但显然两个集合的差别是很大的,计算两者的标准差,前者是8.3后者是1.8。标准差小的距离均值较为集中。标准差描述的就是这种 “散布度”。
ps:之所以除以n-1而不是n,是因为这样能使我们以 较小的样本集更好地逼近总体的标准差,即统计上所谓的“无偏估计”。而方差则仅仅是标准差的平方。
二、协方差和相关系数
要说协方差和相关系数,我们不得不提相关性,相关性是描述事物之间是否有关系的方法。
2.1有关系
专家表示,要买房的人越多(下图的城镇化率可以简单理解为进城买房的人数),房价就越高&#x