相关性分析(具体来说,皮尔逊成对相关性)和回归分析(具体来说,双变量最小二乘 (OLS) 回归)具有许多共同的特征:
- 两者都定期应用于两个连续变量(我们称之为 X 和 Y)。
- 通常向学生介绍这两种图表时使用的是同一类型的图表:散点图。
- 二者从根本上讲都是关于 X 中的偏差(即相对于平均值的单个值)与 Y 中的偏差之间的关系。
- 两者都假设 X 和 Y 之间存在线性关系。
- 两者都可以用于经典的假设检验,每个都依赖于相同的基础分布(t)并产生相同的p值。
事实上,双变量 OLS 回归中获得的流行 R 平方实际上就是皮尔逊相关系数 ( r ) 的平方。
那么相关性和双变量回归,有什么区别呢?
最大的区别在于我们如何解释每次分析产生的关键数量。我们从相关性分析中获得的相关系数 ( r ) 是一个标准化数字,介于 -1 到 +1 之间(其中 -1 表示完全负线性相关,而 +1 表示完全正线性相关),无论我们分析的变量是什么。
另一方面,回归会产生一个 beta 系数 ( b ),它可以是任意数字,告诉我们当 X 增加