1、重点归纳
回归分析就是利用样本(已知数据),产生拟合方程,从而(对未知数据)进行预测
用途:预测,判别合理性
例子:利用身高预测体重;利用广告费用预测商品销售额;等等.
线性回归分析:一元线性;多元线性;广义线性
非线性回归分析
困难:选定变量(多元),避免多重共线性,观察拟合方程,避免过度拟合,检验模型是否合理
2、一元线性回归:
首先计算相关系数确定自变量与因变量是否相关。
若X不Y间存在着较强的相关关系,则我们有Y≈α+βX+ε
若α,β的值已知,则给出相应的X值,我们可以根据Y≈α+βX得到相应的Y的预测值
说明:
截距项α
斜率β
误差项ε
例子:商品销量s关于电视广告费用t的回归方程:s=10+3.4*t(单位:万元)
3、如何确定参数?
使用平方误差和衡量预测值不真实值的差距
目标函数 :寻找合适的参数,使得残差平方和最小。(这就是所谓的最小二乘法)
4、回归系数的假设检验
通过P值判断是否显著。
5、多远线性回归模型
当Y值的影响因素不唯一时,采用多元线性回归模型。
多元线性回归的核心问题:应该选择哪些变量?
RSS(残差平方和)不R 2 (相关系数平方)选择法:遍历所有可能的组合,选出使RSS
最小,R 2 最大的模型
6、回归诊断
样本是否符合正态分布假设?
是否存在离群值导致模型产生较大误差?
线性模型是否合理?
误差是否满足独立性、等方差、正态分布等假设条件?
是否存在多重共线性?
相关资料
R语言做一元线性回归分析
http://jingyan.baidu.com/article/e4511cf35f10fe2b845eaf8e.html
机器学习–线性回归R语言
http://blog.csdn.net/dingchenxixi/article/details/50543822
R语言-简单线性回归图-方法
http://www.cnblogs.com/Edison25/p/5822682.html