一种更简单的求最小平方均值函数（MSE)的方法 -- 梯度下降法。

最新推荐文章于 2025-03-21 21:19:23 发布

朱心洲23333333

最新推荐文章于 2025-03-21 21:19:23 发布

阅读量6k

点赞数 4

本文链接：https://blog.csdn.net/weixin_42342803/article/details/81366699

版权

在上一篇博客中我们通过解析解法算出来了

但是上面公式中的对称阵是N维乘以N维的，复杂度为O（n*n*n），虽然很精准但是很慢。

为此我们引入梯度下降法

我们首先大致画出MSE的图像，MSE是一个开口向下，有最小值的凸函数，它的图像如下图。

这里写图片描述
其中θ为模型w0~wn，纵轴为MSE的值。
由图可知，该图像上点的梯度会随着位置变化，当在θ ̂（MSE最小）时，梯度为零。

由图可知，在图中我们初始了一个θ，将这个θ代入梯度下降法公式，我们便可以求出下一个时刻的θ
其中梯度下降法的公式为：
这里写图片描述

其中：α为计算机的学习率（不变，由人工设定），g为（θ=θt）时的梯度
为此，要让我们计算机用梯度下降法求最小MSE只需执行以下4个步骤即可；
1：求初始化θ，设定学习率α
2：求梯度g
3：代入公式，判断g是否等于0
4：当g等于0时，停止

接下来我们对MSE函数求导，找到g的关系。
这里写图片描述

为此，在日常的算法中，我们结合两种方法，一般我们采用小批量的随机梯度下降法

接下来，我们用代码分别实现批量梯度下降法和随机梯度下降法。

批量梯度下降法：

import  numpy as np
import matplotlib.pyplot as plt

#模拟数据
#模拟100行1列X的数据
X = 2* np.random.rand(

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

朱心洲23333333

关注关注

4
点赞
踩
15

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

最小平方误差判别（MSE）

林景的博客

10-05

9008

最小平方误差判别（MSE）前导知识：【d维感知器】，【一种更简单的求最小平方均值函数（MSE)的方法 – 梯度下降法。】本文讨论线性不可分样本集的分类方法。在线性不可分的情况下，不等式组： αTyi>0,i=1,2,...,N(1) \alpha^Ty_i>0,i=1,2,...,N \tag 1 αTyi>0,i=1,2,...,N(1) 不可能同时满足。一种直观的想法就是，希望求解一个α∗\alpha^{*}α∗使错分的样本尽可能少，即不满足不等式(1)(1)(1)的样本尽可能少

机器学习：梯度下降算法（Gradient Descent）

qq_44219837的博客

10-21

903

梯度下降——Gradient Decent 泰勒公式在高数中学过的泰勒公式告诉我们，我们始终可以找到一个级数表达式，去拟合任意随机样本结果。梯度梯度：数学概念，在一维函数中等同于一维函数的导数，在多维函数中即为多维函数的偏导数。梯度的意义：某一点的梯度向量指示了函数变化率最大的一个方向 梯度下降 梯度下降——迭代思想在构建求解表达式的过程，从某个参量表达式出发出求偏导，找出当前位置梯度下降最大的方向，和结果进行拟合，计算函数的梯度，找到下一参量组，如此循环往复，直至找到最优解。

参与评论您还未登录，请先登录后发表或查看评论

MSE的梯度。

akon_wong_hkbu的博客

10-28

2472

MSE分类时梯度消失的问题详解和交叉熵损失的梯度推导

最新发布

阿正的梦工坊

03-21

1233

数学推导和详细解释

【机器学习入门】6、梯度下降法

Alexander的博客

07-08

323

梯度下降法（Gradient Descent）不是机器学习方法，是一种基于搜索的最优化方法，最小化损失函数。过程类似球从碗口滚落到碗底。并不是所有函数都有唯一极值点局部最优解极小值点全局最优解最小值点在线性回归中使用梯度下降法 模拟梯度下降法 import numpy as np import matplotlib.pyplot as plt plot_x = np.linsp...

关于梯度下降算法

zgx123666的专栏

01-27

806

前边博文说了关于MNIST手写字体的识别，现在专门记录下使用梯度下降算法进行学习的方法：我们将⽤符号 x 来表⽰⼀个训练输⼊。为了⽅便，把每个训练输⼊ x 看作⼀个 28 *28 = 784维的向量。每个向量中的项⽬代表图像中单个像素的灰度值。我们⽤ y = y(x) 表⽰对应的期望输出，这⾥ y 是⼀个 10 维的向量。例如，如果有⼀个特定的画成 6 的训练图像，x，那么y(x) = (0

【深度学习原理】如何利用梯度下降法，寻找损失函数最小值？

hennyxu的博客

11-20

7700

梯度下降(Gradient Descent)是用于寻找函数最小值的一种优化算法。我们常常利用梯度下降法来使损失函数Loss function的值尽可能小，即让神经网络的预测值（实际输出）和标签值（预期的输出）尽可能接近。在这个过程中，网络参数——各层的权值与偏重将得到调整，这也正是神经网络的训练原理。可见熟悉梯度下降的原理对于理解神经网络相当重要。本文将从损失函数概念、梯度下降原理 &...

python使用梯度下降算法实现一个多线性回归

09-17

梯度下降算法是一种寻找成本函数最小值的方法。通过不断更新模型参数 \( \theta \)，使得成本函数逐渐减小。更新规则为： \[ \theta_j := \theta_j - \alpha \frac{\partial}{\partial \theta_j} J(\theta) \] ...

基于matlab的梯度下降法实现线性回归

06-04

梯度下降法是解决这一优化问题的一种方法，它基于数学中的梯度概念。梯度指的是函数在某一点上方向导数沿着坐标轴正方向最大值的方向，实际上指向的是函数值增加最快的方向。因此，梯度下降算法通过逆梯度方向更新...

梯度下降

xusworld的专栏

07-10

434

梯度下降是机器学习中最基本的概念，分为BGD（Batch Gradient Descent）、SGD(Stochastic Gradient Descent)和MBGD（Mini-Batch Gradient Descent）三种。一般线性回归函数的假设函数对应的损失函数下图作为一个二维参数（\theta _{0} ，\theta _{1} ）组对应能量函数的可视化图：批量梯度下降BGD机器学习算...

【机器学习】2、梯度下降（线性回归）（上）

qq_49183286的博客

10-06

1759

梯度下降的基本原理及相关代码手动实现

模式识别的MSE的算法实现

12-21

该做作品由南信大11级硕D316集体于2011.12.21凌晨2:40完成，为尊重我们的劳动成果，请遵守如下条例： 1.下载后能给予鼓励性评价。 2.作为样本同时也为保持作品的多样性，本文只提供了第一步的划分结果，并给出了相应的图片和参数，后续划分请参考第一步划分。最后，316宿舍祝大家期末考试顺利，预祝大家新年愉快！

MSE最小二乘法matlab实现

05-19

可直接运行，MSE是人工智能的一个简单的两类分类器，用到学生数据集（两类2维）和sona10折叠2类数据集

优化算法之梯度下降（数学推导和代码）

人无再少年

12-17

251

对多元函数的参数求偏导，把求得的各个参数的偏导以向量的形式写出来，就是梯度。对于一元函数，梯度等于这一点的导数。例如均方差，它反映了模型预测结果与实际标签之间的差异程度。我们的目标是通过调整模型参数，使损失函数的值最小化。梯度是损失函数关于模型参数的偏导数，函数在该点处沿着该方向（梯度的方向）变化最快。它是一个向量（矢量）。梯度下降算法针对的是最小优化问题(即求最小值问题)，为了找到使损失函数取最小值的权重(w)和偏置(b)。往梯度的方向更新参数。

损失函数交叉熵、均方差MSE；反向传播、梯度下降； InfoNCE、kl散度与交叉熵损失

weixin_42357472的博客

05-08

4228

激活函数与损失函数关系激活函数先进行0-1区间，再输入损失函数与label进行误差计算，最后反向传播常用交叉熵的原因 A)、原因在于交叉熵函数配合输出层的激活函数如sigmoid或softmax函数能更快地加速深度学习的训练速度 B)、因为反向传播过程中交叉熵损失函数得到的结果更加简洁，无论sigmoid或softmax，可以定量分析。 1、sigmoid（二分类、多标签） 2、softmax（多分类，概率和为1） Sigmod本质上是Softmax的特殊情况 3、交叉熵（分类）、均方差（回

9.深入线性回归推导出MSE——不容小觑的线性回归算法

dxyl632956的博客

09-19

2188

通过8.机器学习从线性回归开始——不容小觑的线性回归算法-CSDN博客的学习，我们已经掌握了线性回归模型的概念和基本原理。均方误差(MSE，Mean Squared Error)是评价线性回归模型性能的一个核心指标。

损失函数-交叉熵 梯度下降

weixin_45715405的博客

04-10

1739

参考梯度下降法在机器学习中常常用来优化损失函数，是一个非常重要的工具。说白了，就是在高中学习过的「极值」的概念，那么什么是极值呢？用非常形象的方式来说极值点，梯度下降法的作用就是寻找一个「极小值点」，从而让函数的值尽可能地小。相信你也发现了，这么多个极值点，那么梯度下降法找到的是哪一个点呢？关于这个问题就要看运气了，算法的最开始会「随机」寻找一个位置然后开始搜索「局部」的最优解，如果运气好的话能够寻找到一个最小值的极值点，运气不好或许找到的就不是最小值的那个极小值点了。

深入浅出梯度下降算法

这里是Mae。

03-16

721

文章目录一、损失函数二、梯度下降 一、损失函数损失函数是用来评价预测值和真实值的不一致程度，，损失函数越好，通常模型的性能越好。常用的损失函数：最小均方差最好的均方差MSE是无限接近于0。二、梯度下降 ...

【机器学习笔记】最小二乘法&最小平方损失函数

MrsBaek的博客

06-03

4474

是一种常用的参数估计方法，用于拟合数据和求解线性回归模型的参数。它通过最小化平方损失函数来找到最佳的模型参数。在最小二乘法中，假设我们有一组输入变量 X 和对应的输出变量 Y，我们希望找到一个线性模型来描述它们之间的关系。线性模型可以表示为：线性回归的基本形式最小二乘法的目标是找到最佳的参数估计值 β，使得模型预测值 Y_hat 和真实观测值 Y 的差异最小化。这可以通过最小化平方损失函数来实现：其中，Y_hat 是模型的预测值，Y 是真实观测值。