机器学习(三)线性回归、广义线性回归、非线性回归

机器学习(三)线性回归模型、广义线性回归模型、非线性回归模型

 

线性回归(数据集要满足正态分布)

一元线性回归模型:

在这里会想到,如何确定方程中的系数呢?我们先来了解最小二乘法,简单来说就是这个点作y轴的平行线与直线相交,那一段y值的平方求和起来最小就是了

那我们怎么求呢?在这之前大家先要了解一些偏导数的知识

为了方便大家理解,举一个通俗易懂的例子

 

多元线性回归模型

也就是一元线性回归是一个因素的,多元的话有多个因素建模,当考虑的因素为2个的话,还可以用三维坐标查看,因素多的话就不太好画出来了

使用的方法还是最小二乘法,还是偏导数,不过不像一元线性回归那样是二元一次方程组了,变为m+1元一次方程组

 

虚拟变量

在我们多元线性回归模型的时候,可能会遇到非连续性的变量,这下我们该怎么办??

比如,性别男和女,不可能就用0,1来直接扔进去模拟(简单来说就是分情况,针对不同情况模拟当然模拟效果就会好一点)

介绍一下哑变量(虚拟变量):

为了简便,现在模型的维度就有因变量销售额,自变量性别,单价

  • 相加模型(只影响截距项)

把性别的男女,新增两个变量

性别,单价---->单价(h),isman,iswoman

y=a+bh+c*isman+d*iswoman

只影响截距的意思,分多种情况拟合出来的,得出来的不同情况模型永远是平行的

 

  • 乘法模型(只影响斜率)

性别,单价---->单价(h),isman*单价,iswoman*单价

y=a+c*isman*h+d*iswoman*h

 

  • 混合模型(都影响)

性别,单价---->单价(h),isman*单价,iswoman*单价,isman,iswoman

y=a+c*isman*h+d*iswoman*h+e*isman+f*iswoman

 

线性回归会遇到以下的问题

  • 对于多元线性回归如何选取变量?

逐步回归(这种方法不是很好,Lasso会比较好)

里面的指标指的是什么指标呢?

 

怎么评价我们模拟的模型好不好呢?需要回归诊断

 样本是否符合正态分布假设?

R语言里面有专门的函数


 是否存在离群值导致模型产生较大误差?

作图观察剔除


 线性模型是否合理?误差是否满足独立性、等方差、正态分布等假设条件?


 是否存在多重共线性?

 

广义线性回归模型

常见的广义线性回归

逻辑回归

上面的例题利用逻辑回归我们算得

 

非线性回归模型

  • 对数法
  • 指数法
  • 幂函数法
  • 多项式回归模型

 

展开阅读全文

没有更多推荐了,返回首页

©️2019 CSDN 皮肤主题: 像素格子 设计师: CSDN官方博客
应支付0元
点击重新获取
扫码支付

支付成功即可阅读