在《变量关系大揭秘(一)》,我们提到了皮尔森相关系数r,它可是相关系数大家庭中的“1号人物”。虽然计算公式有点吓人,但其实就是小学算术。只有了解了r的算法,你才能真正理解“为什么它能衡量变量间的相关性”,你才能真正驾驭它。
先来两个散点图,左图中x和y不相关,右图中x和y高度正相关,差别在哪?
让我们在左右两图各画一个“田”字,“田”字中心的坐标是(x的平均值,y的平均值):
比较左右两图,我们知道:
当散点在A、B、C、D均匀分布,x和y不相关;
当A和C的点越多,并且B和D的点越少,x和y就越(正)相关;
当B和D的点越多,并且A和C的点越少,x和y就越(负)相关(懒得画图了,