相关与回归的联系
相关与回归
不独立两个随机变量,二者之间肯定会存在某种关系:
函数关系(确定性关系)
相关关系(非确定关系)
散点图观察相关性
相关性的程度
相关系数
相关关系不是因果关系
一元线性回归
一元线性回归————数学思想
最佳回归线
不同的人会找到不同的‘最佳’回归线
残差平方和最小为‘最佳’
普通最小二乘法(OLS)
残差平方和最小
残差就是y的实际值和y的回归值之间的差异,就是随机误差。
建立模型
解读模型
高斯-马尔科夫假定(LINE)
模型检验(系数检验、方程检验)
统计预测
前提条件(LIME) # 使用残差分析进行前提条件的检查 (不是很重要,可以不做)
线性(Linear)
独立性(Independence)
正态性(normal)
等方差(equalvariance)
模型检查
系数的检验
方程的检验
决定系数R^2
贡献有多大?
回归平方和占总平方和的比例
等于相关系数的平方
统计预测
点预测
区间预测
个体的预测区间
均数的置信区间
多项式回归
多元线性回归
回归公式
求解方法
R实战
常用函数
summary() 展示拟合模型的详细结果
coefficients() 列出拟合模型的模型参数(截距项和斜率)
confint() 提供模型参数的置信区间(默认95%)
fitted() 列出拟合模型的预测值
residuals() 列出拟合模型的残差值
anova() 生成一个拟合模型的方差分析表
vcov() 列出模型参数的协方差矩阵
AIC() 输出赤池信息统计量
plot() 生成评价拟合模型的诊断图
predict() 用拟合模型对新的数据集预测响应变量值
R实例:
lm函数
lm(formula,data)
formula表达式,data数据集
表达式写法
Y ~ X1 + X2 + … + Xk
> # 一元线性回归
> head(women,3)
height weight
1 58