文章目录
一. 相关系数
1.1 关系
关系分为两种:
-
函数关系
确定关系,例如: y=3+10*x -
相关关系
非确定关系
1.2 相关系数概述
我们使用相关系数这一指标去衡量两个变量之间的线性关系程度。
1.3 相关系数公式
要求:
- 成为数据(x,y)组成的样本是一个随机样本
- 数据对(x,y)的散点图要呈现出近视线性相关性
- 要把离群值排除
相关系数计算公式:
1.4 相关系数r的性质
r的性质:
-
r的范围是-1到1
-
如果某个变量的所有值都转换为一个不同的度量单位,r值不变。
-
r值不受x、y的选择影响。交换所有的x值与y值,r不便。
-
r是线性相关性的强度的度量,不适用于非线性相关的关系。
-
r非常容易受到离群值的影响,当有离群值存在的时候,r可能变得非常不一样
1.5 可解释变异 r 2 r^2 r2
Y变异的来源:
- x变异造成的-可解释变异
- 除x外的因素变异造成的,如随机抽样引起的误差
r 2 r^2 r2放映了y变异中由x变异引起的变异所占总变异的比例,也就是 r 2 r^2 r2的值是由x和y之间的线性相关性说解释的y的变异变异比例。
1.6 常见错误
- 误将相关关系认为是因果关系
- 局部求平均数后再用于计算会使变异减少,相关性增大
- 不存在线性相关性,不意味着两个变量没有关系,可能会存在其他非线性关系
1.7 相关系数
例子:
二. 回归模型
2.1 一元线性回归模型
2.1.1 如何确定参数
例子:
2.1.2 回归系数显著性检验
例子:
2.1.3 回归诊断-残差图
2.2 多元线性回归模型
参数估计:
R
2
R^2
R2
例子:
三. 虚拟变量
参考:
- http://www.dataguru.cn/article-4362-1.html