衡量一个回归模型常用的两个参数:皮尔逊相关系数和R平方
一、皮尔逊相关系数
在统计学中,皮尔逊相关系数( Pearson correlation coefficient),又称皮尔逊积矩相关系数(Pearson product-moment correlation coefficient,简称 PPMCC或PCCs),是用于度量两个变量X和Y之间的相关(线性相关),其值介于-1与1之间。
实际可用如下公式进行计算:
若大于0,表示正向相关,小于0,表示负向相关,等于0,表示不相关
二、决定系数:R平方值
定义:反应因变量的全部变异能通过回归关系被自变量解释的比例。
特别的对于简单线性回归模型时:
其中(Sum square regression)表示所有预测值与平方值的变异量,(Sum square total)表示所有真实值与平方值的变异量,(Sum square regression)表示真实值与预测值的变异量
例如当为0.8时,表示80%可以用模型来解释
实际应用中,为了抵消样本数量对评估参数的影响,我们需要对R平方表示式进行修正为:
表示样本的R平方值,表示样本大小,表示预测值数量
三、python代码实现
对于简单线性回归,分别计算相关系数和决定系数,并验证公式:
通过结果验证,简单线性回归模型中,成立