02.线性回归算法

置顶 WuJiaYFN

已于 2022-08-20 21:10:55 修改

阅读量668

点赞数 1

分类专栏：机器学习(吴恩达机器学习笔记——持续更新中) 文章标签：算法线性回归机器学习

于 2022-07-18 12:41:32 首次发布

本文为WJiaJiaBest博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明

本文链接：https://blog.csdn.net/qq_44749630/article/details/125846537

版权

28 篇文章 20 订阅

订阅专栏

主要内容

代价函数(有些地方也叫损失函数) 用于更好地拟合样本，得到更合适模型的一个方法。
在线性回归中，假设函数为 hθ(x) = θ0 + θ1 * x ，其中θ0和θ1的变化会引起假设函数的变化，参数的选择决定了我们得到的直线相对于训练集的准确度。
为了让预测值和真实值的误差尽可能小和最小化θ0和θ1，我们将这个问题转化为找到能使训练集中预测值和真实值的差的平方的和的1/2M最小的θ0和 θ1的值。

在这里插入图片描述

为代价函数，又称为平方误差函数，它是解决回归问题最常用的手段

m 代表训练集样本数量,
xi 代表第 i 个样本，
hθ(xi) 代表第 i 个样本对应的预测值，
yi 代表第 i 个样本对应的真实值。
**J(θ0,θ1)的值越小,表示对应的假设函数越好,线性回归的目标函数即求使得J(θ0,θ1)**最小的 **(θ0,θ1)**参数带入后的假设函数
常用三维坐标图或者等高线法来表示**J(θ0,θ1)**与 θ0,θ1两个参数的关系
- 这是一个碗状的3D图，碗底即代价函数**J(θ0,θ1) **的最低点，对应的θ0和θ1即为最小。
- 在同一条线上的所有**J(θ0,θ1)**的值都相同(如图中的三个x值都一样)
- 同心椭圆的中心即为最小的 J(θ0,θ1)

假设一线性回归模型，它的代价函数为 J(θ0,θ1) 。我们的目标是最小化这个代价函数，而要得到最小的代价函数值关键就在于正确选取 θ0和θ1的值，于是我们引出梯度下降算法。

步骤：1. 初始化θ0和θ1的值，通常取0。

2. 不断改变θ0和θ1的值，试图通过这种改变使得 J(θ0,θ1) 变小，直到找到 J(θ0,θ1) 的最小值（也可能是局部最小值）

在这里插入图片描述

公式说明:
- := 符号是赋值运算符，表示把符号后面的值赋予给符号后面的值，
- α 表示学习率，用来控制每次更新参数的步长(说白一点就是控制梯度下降的步子大小),α的大小不好确定，如果太小则需要很多步才能收敛，如果太大最后可能不会收敛甚至可能发散。
- 偏导数，用来计算当前参数对应代价函数的斜率，导数为正则θ减小，导数为负则θ增大，通过这样的方式可以使整体向θ=0收敛。

为了易理解梯度下降过程，我们假定 hθ(x) = θ1x, 代价函数为 J(θ1) ，可以得到 J(θ1) 与 θ1 关系图如下
梯度下降过程即：
- 首先选取 θ1 的值，得到对应的 J(θ1) ，标记在上图中红点位置处。
- 以红点作切线（上图中红色实线），此时切线的斜率即公式中的导数项，切线斜率再与学习率 α （正数）相乘，最后用θ1减去它们相乘后的值，计算出的值即第一次更新后的θ1 （向左移动），此时也可以发现对应的 J(θ1) 位置会往左边移动，直到运动到最小值（局部最小值）。
- 移动速度跟学习率 α 有关，如果 α 过大，每次移动也会跳跃得越大，很容易越过最小值，无法收敛，甚至发散。而事实上，在梯度下降过程中，学习率 α 会自动调整，越靠近最小值， α 会越小，移动越慢。
- 如果初始化 θ1 后，得到对应的 J(θ1) 本身就处在最小值位置，再使用梯度下降算法， θ1 将不会更新，因为此时导数项为0，J(θ1) 也不会发生变化。
在梯度下降的过程中,当我们越来也接近局部最低点时,梯度下降会自动采取更小的幅度(因为导数值会自动变得越来越小),在局部最低点是导数 = 0