机器学习10线性回归法Linear Regression

一、线性回归算法简介

1.解决回归问题;
2.思想简单,实现容易;
3.是许多强大的非线性模型的基础;
4.结果具有很好的可解释性;
5.蕴含机器学习中的很多重要思想;
样本特征x只有一个称为简单的线性回归;
在这里插入图片描述
不用绝对值是因为其不能保证在之后的算法中处处可导;
因此我们选择了真值与预测值差之平方来表示偏差;
推出来这个式子之后我们的目标就是使其尽可能地小;
——典型的最小二乘法的问题
在这里插入图片描述
目标,其实就是找到一个模型最大程度拟合我们的数据,在线性回归算法中这个模型就是一个线性回归方程,在这里,
我们称右图目标函数为损失函数(loss function)也就是说度量出模型没有拟合样本的损失的那一部分
有的函数中度量的是拟合的那部分函数,称为效用函数(utility function)
不管是哪一种函数,我们的机器学习都是通过分析问题,确定问题的损失函数或者效用函数,通过最优化损失函数或者效用函数获得机器学习的模型;
近乎所有参数学习算法(线性回归,多项式回归,逻辑回归,svm,神经网络等)都是这样的思路;
在这里插入图片描述
具体怎么推此处省略
在这里插入图片描述

二、简单线性回归的实现

简单线性回归的实现:
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

三、向量化运算

(使用向量运算比使用for循环速度是更快的)结果基本大小一样
在这里插入图片描述
在这里插入图片描述

四、衡量线性回归法的指标,MSE,RMS,MAE

衡量线性回归法的指标之一,就是这么一个衡量标准,让误差和尽可能小,但是这里有一个问题就是m的大小会对衡量造成影响,
因此此处引入MSE均方误差(Mean Squared Error)、
RSE均方误差(Root Mean Squared Error)、
平均绝对误差MAE(Mean Absolute Error)
在这里插入图片描述

MSE均方误差(Mean Squared Error)

在这里插入图片描述

RSE均方误差(Root Mean Squared Error)

在这里插入图片描述

平均绝对误差MAE(Mean Absolute Error)

在这里插入图片描述

五、演示

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

六、评价回归算法R Square

**回忆:**在解决分类问题的时候,我们评价分类的准确度1代表最好0代表最差,取值在0-1之间;
但是问题来了,MSE RMSE MAE没有这样的性质,我们无法判断算法准确度的优劣,这就是以上三种方法的局限性;
解决方法:RSquared;
R^2后面部分的分子代表使用我们的模型预测产生的错误,分母代表y=y的均值,使其成为一个模型(最基本的模型Baseline Model);
用1-后面式子相当于衡量了使用模型没有产生错误的相应的指标;
所以这个值越大越好,越接近1越好;
在这里插入图片描述
在这里插入图片描述

七、多元线性回归

一个样本有很多个特征值
在这里插入图片描述

目标

在这里插入图片描述

多元线性回归的正规方程解(Normal Equation)

在这里插入图片描述

问题:

虽然有一些加速方案,但是即使有一些加速方案的话,整体优化出来也是O(n2.4)基本上还是比O(n2)要高;

优点:

不需要对数据做归一化处理
在这里插入图片描述

实现多元线性回归:

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

在这里插入图片描述

八、线性回归的可解释性和更多思考

评价线性回归算法:R Squared;

线性回归算法总结:

1、典型的参数学习,对比knn非参数学习;
2、只能解决回归问题,虽然很多分类方法中,线性回归是基础(如逻辑回归)对比knn:既可以解决分类问题又可以解决回归问题;
我们在学习线性回归的时候其实对数据有一个假设:线性;对比knn对数据没有假设(假设就是数据和最终输出之间有一定的线性关系,而且线性关系越强线性回归算法线性回归算法得到的结果也就越好);
线性回归算法稍作改动就可以解决非线性问题,并且它的优点:对数据具有解释性;
当时间复杂度越高的时候,更好的解决方案:梯度下降方法;
在这里插入图片描述
在这里插入图片描述

Attribute Information (in order):
        - CRIM     per capita crime rate by town
        - ZN       proportion of residential land zoned for lots over 25,000 sq.ft.
        - INDUS    proportion of non-retail business acres per town
        - CHAS     Charles River dummy variable (= 1 if tract bounds river; 0 otherwise)
        - NOX      nitric oxides concentration (parts per 10 million)
        - RM       average number of rooms per dwelling
        - AGE      proportion of owner-occupied units built prior to 1940
        - DIS      weighted distances to five Boston employment centres
        - RAD      index of accessibility to radial highways
        - TAX      full-value property-tax rate per $10,000
        - PTRATIO  pupil-teacher ratio by town
        - B        1000(Bk - 0.63)^2 where Bk is the proportion of black people by town
        - LSTAT    % lower status of the population
        - MEDV     Median value of owner-occupied homes in $1000's
  • 2
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

淅淅同学

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值