机器学习---线性回归

最新推荐文章于 2023-03-27 21:07:53 发布

西南交一枝花

最新推荐文章于 2023-03-27 21:07:53 发布

阅读量276

点赞数 1

文章标签：线性回归机器学习

本文链接：https://blog.csdn.net/qq_29878627/article/details/87181171

版权

这篇博客介绍了机器学习的基础算法线性回归，通过分析房价预测问题，讲解了线性回归的数学建模，包括模型参数初始化、模型与数据拟合及参数优化。讨论了梯度下降法在优化中的应用，并引入了学习率的概念。最后，对比了梯度下降与正规方程（最小二乘法）两种求解方法。

摘要由CSDN通过智能技术生成

转载请注明出处

引言

本次，介绍第一个机器学习算法线性回归，主要参考Ng老师的机器学习课程，并对其内容进行了梳理、拓展与补充。

问题介绍

房价预测是介绍机器学习基础算法的基本引题，房价预测是指给定房子的一些属性，如房子大小、所处位置、房屋户型等，预测房价。

任务建模

分析任务

分析任务的目的是探究问题本质，清楚问题的定义。如房价预测，指预测出具体的房价数值，该问题归为机器学习的回归问题。

数学建模

使用线性回归Linear Regression算法介绍机器学习建模流程。
$H_\theta=\theta_0+\theta_1x_1+...\theta_nx_n$
上式表示线性回归数学表达式，是对输入变量计算的一种方式。其中 $\theta表示$ 参数， $x$ 表示输入变量， $H$ 表示预测的结果。

目标： $minimize_{\theta_0,\theta_1,,,,\theta_n}J(\theta_0,\theta_1,,,,\theta_n)$ 即，最优解问题，最小化代价函数。

这就带来了一个问题：如何得到参数 ？
我们可将该问题分为三个部分：

初始化模型参数
拟合模型与真实数据
优化模型参数

1. 初始化模型参数

这个部分比较容易理解，就是对初始状态参数进行赋值，经常使用的方式为初始化为标准正态分布。

2. 拟合模型与真实数据

这部分内容为核心内容，首先我们需要找到一种方法度量模型与真实数据拟合程度，在机器学习中我们称之为损失函数(Loss Function)。
常用的损失函数包括：

0-1损失函数 (0-1 Loss Function) $L (Y, f (X)) = 1$ if $Y = = f (X)$ || $L (Y, f (X)) = 0$ if $Y! = f (X)$
平方损失函数 (Quadratic Loss Function) $L(Y, f(X))=(Y-f(X))^2$
绝对值损失函数 (Absolute Loss Function) $L (Y, f (X)) = ∣ Y - f (X) ∣$
对数损失函数 (Logarithmic Loss Function) 或对数似然损失函数 (Log-likelihood Loss Function)
$L (Y, P (Y ∣ X)) = - l o g P (Y ∣ X)$

损失函数越小，模型对真实数据的拟合程度越好。

损失函数并不是固定的，算法研究者可根据具体问题设计损失函数
一些Paper就是通过对问题的分析，提出新的损失函数，使得模型表现性能更好。

如何在所有数据上计算损失，从而为第三部分参数优化做准备那？
从而引入一个概念，风险损失，表示平均意义上模型预测的表现性能，为损失函数的期望。
风险损失包含两个方面：

经验风险
结构风险

在NG的课程中我们最开始听到的就是代价函数Cost Function，在这里代价损失函数就是表示经验风险。我们在后面还是称经验损失，这部分知识属于前期理论补充。
经验风险 模型关于训练集的平均损失，称为经验风险和经验损失。
结构风险 当模型对训练数据拟合的过好，就出现了过拟合情况，需要对经验风险进行惩罚，或者说正则化。后面内容再对其详细地介绍。

3. 优化模型参数

常用的方法有：

梯度下降 Gradient Descent（将会详细介绍）
牛顿法和拟牛顿法
共轭梯度法
启发式优化方法

扯回正题，房价预测问题上使用的代价函数（经验风险）为
$J_\theta=\frac{1}{2m}\sum^m_{i=1}(H_\theta(x^i)-Y^i)^2$ ,
所使用的损失函数为平方损失。其中 $2 m$ 中 “2”是为了使用梯度下降求导时，与平方相抵消便于计算，‘m’ 表示样本的总个数， $x^i$ 表示第 i 个样本的属性（房屋大小、房龄等）， $y^i$ 表示房价（标签）。

这里介绍一下 属性和特征？ 属性是现实世界中我们对物体的特性的称谓，比如房子的面积，长度，宽度，房子的年龄等。当进行机器学习建模时，我们需要用到属性，这时我们称之为特征。

已知代价函数和初始化参数，如何依据训练数据优化参数那？
梯度下降算法常用于参数最优化，其公式描述为：
Repeat until convergence { $\theta_j := \theta_j-\alpha\frac{\partial}{\partial\theta_j}J(\theta_0,\theta_1,,,,,\theta_n)$
$\theta_0-\alpha\frac{\partial}{\partial\theta_0}J(\theta_0,\theta_1,,,,,\theta_n)$
$\theta_1-\alpha\frac{\partial}{\partial\theta_1}J(\theta_0,\theta_1,,,,,\theta_n)$
$. . . . . . .$
$\theta_n\alpha\frac{\partial}{\partial\theta_n}J(\theta_0,\theta_1,,,,,\theta_n)$
$\theta_0:=temp0$
$\theta_1:=temp1$
$. . . . . .$
$\theta_n:=tempn$
}

最重要的是： 同步更新

梯度下降就是从一个点开始，往梯度最大的方向移动。要计算当前点的梯度最大方向，如果不同步更新的话，计算的就不是当前点，也就无法保证得到局部最优。

现在我们来介绍一下随机梯度更新的意义：
首先，以单变量线性回归为例 $J_\theta=\theta_0+\theta_1x$ ，进一步简化计算，令 $\theta_0=0$ ，下面给出 $J_\theta$ 随着 $\theta1$ 变化而变化的曲线图：

可以看到代价函数曲线，其J关于 $\theta$ 的导数表示了曲线上某点的斜率，通过上述的公式，我们可以看出无论当前处于哪个点，都是沿最大梯度方向更新 $\theta$ 的值。
另外给出关于两个变量 $\theta_0$ , $\theta_1$ 的3D图：
3D图
图中可以看出，也是存在一个最低点，但是这样来看对于梯度的变化不是很形象，下面给出两个变量变化的等高线图：
等高像
从图可以看出，等高线图相当于3D的图从上往下的压缩。matlab可以绘制该图。

注意到梯度下降公式中 $\alpha$ 参数，该参数称为 “学习率”(learning rate)，其表示了每次参数更新的幅度。若 $\alpha$ 设置地过小，参数更新速度慢，模型收敛速度就慢。若 $\alpha$ 设置地过大，参数更新幅度过大就会跳过最优点，造成来回震荡，模型难以收敛。

引入矩阵计算
多元线性回归公式 $H_\theta=\theta_0+\theta_1x_1+...\theta_nx_n$ 也可以表示为:
$x=[x_0,x_1,,,,x_n] \\ \theta = [\theta_0,\theta_1,,,,,\theta_n] \\ H_\theta = \theta^Tx$
这样就将矩阵引入到了模型中，这样我们可以利用矩阵运算提高计算效率。

有别于梯度下降求解最小值的方法正规方程（最小二乘法）

首先介绍正规方程与最小二乘法之间的关系：
正规方程（引用百度百科）：最小二乘法可以将误差方程转化为有确定解的代数方程（其方程式数目正好等于未知数的个数），从而可求解出这些未知参数。这个有确定解的代数方程组称为最小二乘法估计的正规方程。
最小二乘法：设给定无解的线性方程组 $A X = B$ ，这里 $A=(a_{ij})_{s\times n},B=(b_1,b_2,,,,b_s)^T, X=(x_1,x_2,,,,,x_n)^T$ ,因为这方程组无解，设法找出一组数 $x_1^0,x_2^0,,,,,x_n^0$ ,使得平方误差 $\delta=\sum_{i=1}^s(a_{i1}x_1+a_{i2}x_2+....+a_{in}x_n-b_i)^2$ 最小。这组数称为此方程的最小二乘解，这一方法叫做最小二乘法。经过公式推导，得到： $A^TAX=A^TB\\ X=(A^TA)^{-1}A^TB$
上述变形过的公式，上述省略的推导是矩阵分析引论给出的方法，数理统计上也有相关的介绍，周志华《西瓜书》上也有相关的介绍。具体可参照我的另一篇博客《机器学习算法—最小二乘法&&正规方程》，其中有详细的推导过程。
$\theta=(X^TX)^{-1}X^TY$
其中涉及了逆运算，这时候需要评估 $X^TX$ 是否可逆，通常情况下都是不可逆，需要使用奇异矩阵或退化矩阵相关的知识。

总结

机器学习本质上属于最优化问题

后续

后续将更新机器学习中另外一个基础算法----逻辑回归（分类算法）

西南交一枝花

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
机器学习---线性回归

引言本次，介绍第一个机器学习算法线性回归，主要参考NG老师的机器学习课程，并对其内容进行了梳理、拓展与补充。问题介绍房价预测是介绍机器学习基础算法的基本引题，房价预测是指给定房子的一些属性，如房子大小、所处位置、房屋户型等，预测房价。任务建模分析任务分析任务的目的是探究问题本质，清楚问题的定义。如房价预测，指预测出具体的房价数值，该问题归为机器学习的回归问题。数学建模使用线性回归L...
复制链接

扫一扫