机器学习笔记第二课

线性回归第一节=====================================================================
1.线性回归用途:预测、判别合理性
2.线性回归种类:一元线性回归、多元线性回归、广义线性回归
一元线性回归:一个自变量参与的直线回归
多元线性回归:多个自变量参与的直线回归
广义线性回归:非直线的回归
3.难点:自变量选取
避免多重共线性:当有一个变量能推出另个一个变量,这个两个变量同时参与回归时
就会造成模型误差增大,这种现象就是多重线性回归
观察拟合方程,避免过拟合,检验模型是否合理


线性回归第二节=====================================================================
1.R做线性回归:函数lm、summary、predict、
2.lm公式:y~x+1  y=ax+b模型
 y~x-1 y=ax  直线过原点模型
3.t检验是假设某个变量的系数为0,进行的检验,t分布的图像是类似于正态分布的图形
  f检验是建设所有变量系数和截断值都为0,进行的检验
4.基于时间的数据用线性回归模型分析,一般不太靠谱,用时间序列模型分析更好,比如用去年、
前年的销售数据做明年的销售线性回归预测

线性回归第三节=====================================================================
1.r多元线性回归:lm(y~.), 公式中的点表示用除了因变量以为其他的所有变量作为自变量进行线性回归


线性回归第四节=====================================================================
1.哑变量(虚拟变量):分类变量(r中也叫因子变量),例如性别
2.哑变量作用:哑变量可以用于处理分类自变量,比如把人种拆分为isyellow、iswhite、isblack
三个个哑变量,并用0和1填充值,这样假如在加法回归模型中,使用拆分后的变量
就会只影响截距。得到三个不同截距的模型公式,如果直接把人种的黄、白、黑用数字0、1、2替代,则使人种称为
一个带有系数的因子,得到一个模型公式,这个模型效果就会很差
如果用于乘法模型则影响的是斜率
如果用于混合模型(既有加法项又有乘法项)则斜率和截距都会影响
哑变量是做线性回归时的一种技巧,把非线性变量转换成了线性的变量
使用nnet包的class.ind()函数进行哑变量变换


线性回归第五节==========================================================================
1.逐步回归方法:向前引入法:从一元回归开始,逐渐增加变量
    向后剔除法:从全变量开始,逐步删除变量
逐步筛选法:先选入一些变量,在向前和向后进行,比较哪个方向好就选择哪个方向做
2.在剔除或加入变量时衡量效果好坏的指标:
RSS残差平方和越小越好
AIC赤池准则,aic值越小越好
相关系数平方越接近1越好
3.r中变量选取方法:step()自动forward、backwar、both
  手动进行:add1()、drop1()这两个方法能计算添加或减少每个变量后的aic值
  
线性回归第六节==================================================================================
1.线性回归的合理性检查:打印出线性回归的图像,肉眼观察
检查残差是否为正态分布:用residues求模型残差,在用shapiro.test检查求得的残差是否为正态
用plot函数画模型检验4幅图,含义:
四幅图都是用来对模型做回归诊断的: 
第一幅是残差-预测值图,如果残差的分布大致围绕着 x 轴(或红线 基本贴近 x 轴),则模型基本是无偏的;另外,如果残差的分布范围 不随预测值的改变而大幅变化,则可以认为同方差假设成立; 
第二幅是正态检验 QQ 图,如果图中的点基本上都分布在一条直线 附近,则正态性假设成立; 
第三幅是标准化残差图,如果标准化残差的平方根大于 1.5,则说明 该样本点位于 95%置信区间之外;
第四幅是库克距离图,图中库克距离最大的样本点可能是模型的强 影响点或异常值点,一般库克距离大于0.5认为是异常点
2.线性回归解决多重共线性:
发现多重共线性:r中使用kappa函数求得kappa值,k<100多重共线性程度很小,100=<k<=1000中等或较强多重共线性,k>1000严重多重共线性
排除多重共线性:使用engine函数求得矩阵特征根和相应特征根,不看特征向量很小的值,剩下的特征向量值之间则是多重共线性发生的变量,然后
去除其中的一个变量,来削弱多重共线性
3.广义线性回归:把非线性回归的通过一定的变换,能够使用线性回归来分析
logist模型,是一条类似于S型的曲线
指数函数模型:y=a*e(bx次方) 其中a、b是系数。模型公式:log(y)~x,log是ln
对数函数模型:y=a+b*log(x)其中a、b是系数。模型公式:y~log(x),log是ln
幂函数模型:y=a*x(b)其中a、b是系数。模型公式:log(y)~log(x),log是ln



  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值