【机器学习第四周】简单线性回归和多元线性回归

最新推荐文章于 2022-03-07 22:37:53 发布

Gshiner

最新推荐文章于 2022-03-07 22:37:53 发布

阅读量1.5k

点赞数

分类专栏：机器学习文章标签：线性回归

本文链接：https://blog.csdn.net/Gshiner/article/details/103314663

版权

机器学习专栏收录该内容

8 篇文章 0 订阅

订阅专栏

梳理大纲： 简单线性回归和多元线性回归
【1】简单线性回归：简单线性回归及最小二乘法的数据推导
【2】多元线性回归：多选线性回归和正规方程解及实现

参考资料:
机器学习西瓜书
以下微信文章 From【木东居士】公众号

From 机器学习小组：由【木东居士】公众号定期发起
对数据感兴趣的伙伴们可一同在此交流学习

简单线性回归：

简单线性回归是属于回归(regression)，即label为连续数值型(continuous numerical variable)，如：房价、股票价格、降雨量等

什么是简单线性回归？

所谓简单，是指只有一个样本特征，即只有一个自变量；所谓线性，是指方程是线性的；所谓回归，是指用方程来模拟变量之间是如何关联的。

简单线性回归，其思想简单，实现容易（与其背后强大的数学性质相关。同时也是许多强大的非线性模型（多项式回归、逻辑回归、SVM）的基础。并且其结果具有很好的可解释性

在这里插入图片描述

我们需要一条直线，最大程度的拟合样本特征和样本数据标记之间的关系。
在二维平面中，这条直线的方程就是 y = ax + b
在这里插入图片描述

基本推导思路
找到一组参数，使得真实值与预测值之间的差距尽可能地小，是一种典型的机器学习算法的推导思路

我们所谓的建模过程，其实就是找到一个模型，最大程度的拟合我们的数据。在简单线回归问题中，模型就是我们的直线方程：y = ax + b 。

要想最大的拟合数据，本质上就是找到没有拟合的部分，也就是损失的部分尽量小，就是损失函数（loss function）（也有算法是衡量拟合的程度，称函数为效用函数（utility function））
在这里插入图片描述

因此，推导思路为：
通过分析问题，确定问题的损失函数或者效用函数；
然后通过最优化损失函数或者效用函数，获得机器学习的模型

近乎所有参数学习算法都是这样的套路，区别是模型不同，建立的目标函数不同，优化的方式也不同。
回到简单线性回归问题，目标：
在这里插入图片描述
这是一个典型的最小二乘法问题（最小化误差的平方）
通过最小二乘法可以求出a、b的表达式：

扩展：损失函数

在机器学习中，所有的算法模型其实都依赖于最小化或最大化某一个函数，我们称之为“目标函数”。
最小化的这组函数被称为“损失函数”。什么是损失函数呢？

损失函数描述了单个样本预测值和真实值之间误差的程度。用来度量模型一次预测的好坏。
损失函数是衡量预测模型预测期望结果表现的指标。损失函数越小，模型的鲁棒性越好。。
在这里插入图片描述

最小二乘法

最小二乘法源于法国数学家阿德里安的猜想：
对于测量值来说，让总的误差的平方最小的就是真实值。这是基于，如果误差是随机的，应该围绕真值上下波动。
在这里插入图片描述
最小二乘法，所谓“二乘”就是平方的意思。
（高斯证明过：如果误差的分布是正态分布，那么最小二乘法得到的就是最有可能的值。）

线性回归中的应用
在这里插入图片描述
这里，将简单线性问题转为最优化问题。下面对函数的各个位置分量求导，导数为0的地方就是极值：
最终我们通过求导得到a、b的表达式：

多元线性回归

在真实世界中，一个样本通常有很多（甚至成千上万）特征值的，这就是多元线性回归。

简单线性回归，只计算前两项
但是在多元线性回归中就要学习到n+1个参数，就能求出多元线性回归预测值：
在这里插入图片描述
求解思路也与简单线性回归非常一致，目标同样是：

这样我们就可以改写成向量点乘的形式：

推导出可以得到多元线性回归的正规方程解：

但是这种朴素的计算方法，缺点是时间复杂度较高：O(n^3)，在特征比较多的时候，计算量很大。
优点是不需要对数据进行归一化处理，原始数据进行计算参数，不存在量纲的问题
（多元线性没必要做归一化处理）