李宏毅《机器学习》笔记(3)--梯度下降

最新推荐文章于 2024-10-02 01:49:36 发布

最棒的xiaoming

最新推荐文章于 2024-10-02 01:49:36 发布

阅读量100

点赞数

分类专栏：机器学习文章标签：深度学习机器学习人工智能

本文链接：https://blog.csdn.net/chuyang1234567/article/details/118702422

版权

机器学习专栏收录该内容

7 篇文章 1 订阅

订阅专栏

一、梯度下降

使用梯度下降法，找一组参数，让损失函数越小越好。

计算过程：

二、方法

1、调整学习率

小心翼翼地调整学习率

自适应学习率

如：随着次数的增加，通过一些因子来减少学习率。通常刚开始，初始点会距离最低点比较远，所以使用大一点的学习率，更新好几次参数之后，比较靠近最低点了，此时减少学习率

Adagrad 算法

每个参数的学习率都把它除上之前微分的均方根。

2、随机梯度下降法

3、特征缩放

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

最棒的xiaoming

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

2021李宏毅机器学习笔记--3.gradient descent梯度下降

guoxinxin0605的博客

04-19

238

2021李宏毅机器学习笔记--3.gradient descent梯度下降梯度下降基本步骤step 1：设定初始值step 2：计算微分step 3：移动到下一步梯度下降的注意事项tip 1：turning your learning rates ηAdagrad一种梯度下降的优化算法tip 2：stochastic gradient descent随机梯度下降tip 3：feature scaling特征缩放梯度下降的限制 梯度下降基本步骤 梯度下降法是用于帮助我们找到一个函数集中最好的函式，也就是损失函

李宏毅-机器学习-RNN-笔记

qq_41789315的博客

10-03

954

李宏毅-机器学习课程-笔记

参与评论您还未登录，请先登录后发表或查看评论

李宏毅机器学习笔记2--梯度下降

Zachary

03-17

171

课程的第二节讲的是线性回归中使用梯度下降时需要注意的点。问题从第一部分中也可以看出来

李宏毅机器学习笔记4-梯度下降

you_jinpeng的博客

08-25

265

李宏毅机器学习总结笔记2中第三点有梯度下降的简介。一学习率的大小对实验的影响太小：实验所需的时间久太大：如上图左边所示，一直在左右振荡，没法到达最低点改进技巧通常越接近最低点，学习率应该变小。因为在一开始的时候，离最低点很远，所以需要大步走，走越多步，学习率要降下来去接近最低点，防止过大在两边震荡。普通的梯度下降中修改参数的方法：最新参数 = 原来参数 — (学习率 x 损失对参...

李宏毅机器学习笔记03-误差和梯度下降

coldfish的博客

07-16

168

Error的来源从上节课测试集数据来看，Average ErrorAverage\ ErrorAverage Error 随着模型复杂增加呈指数上升趋势。更复杂的模型并不能给测试集带来更好的效果，而这些 ErrorErrorError 的主要有两个来源，分别是 biasbiasbias 和 variancevariancevariance 。然而 biasbiasbias 和 variancevariancevariance 是什么？可以查看 机器学习中的Bias(偏差)，Erro

李宏毅机器学习笔记-误差与梯度下降

weixin_45184855的博客

07-16

267

李宏毅机器学习笔记-误差与梯度下降 1 误差、偏差、方差 1.1 误差来源误差主要有两个来源：分别是 biasbiasbias 和 variancevariancevariance 。其中f^\hat ff^ 就是我们的靶心（真实值），f∗f^*f∗ 就是我们投掷的结果（预测值）。如上图所示，f^\hat ff^ 与 f∗f^*f∗ 之间蓝色部分的差距就是偏差和方差导致的。 1.2估测变量x的偏差与方差对于随机变量xxx，平均值是 μ\muμ，方差为 σ2\sigma^2σ2 从总体中抽取N

李宏毅机器学习笔记4 -- DNN训练

Zachary

04-03

318

李宏毅课程中关于 Tips of deep learning这部分讲的知识点比较多而且很细节。其中的dropout、ReLU等等很早就使用了，但是其中的细节却一直没有注意，这里总结一下课程中的知识，趁机巩固一下基础。开篇作者主要介绍了五部分，针对的是训练集表现不好即以测试集（验证集）表现不好（过拟合）两个问题。训练集表现不好当模型在训练集表现不好时，有可能是模型复杂度不够，但是在Deep Learning中这种情况并不多见，所以问题更多集中在激活函数、learning rate不合适等Networ

2021李宏毅机器学习笔记--7.1 backpropagation

guoxinxin0605的博客

05-23

231

2021李宏毅机器学习笔记--7.1 backpropagation1 摘要2 步骤2.1 chain rule链式法则2.2 loss function2.2.1 forward pass2.2.2 backward passcase1 未知的两项在输出层case2 未知的两项并不在输出层3 小结及展望 1 摘要上文讲到可以用Backpropagation的方法对网络中的所有参数（ w 和 b）进行更新，最终使total loss达到最低值，本文将介绍具体的步骤。 2 步骤选定一组初始的参

DW李宏毅机器学习笔记--Task03（下）-梯度下降

StarryPilgrim

08-20

248

文章目录前言什么是梯度下降法？Tip1：调整学习速率小心翼翼地调整学习率自适应学习率Adagrad 算法Adagrad 是什么？Adagrad举例Adagrad 存在的矛盾？多参数下结论不一定成立Adagrad 进一步的解释Tip2：随机梯度下降法Tip3：特征缩放为什么要这样做？怎么做缩放？梯度下降的理论基础问题数学理论泰勒展开式定义多变量泰勒展开式利用泰勒展开式简化梯度下降的限制总结前言这是我在Datawhale组队学习李宏毅机器学习的记录，既作为我学习过程中的一些记录，也供同好们一起交流研究，之

DW李宏毅机器学习笔记--Task02-回归

StarryPilgrim

08-18

394

文章目录前言一、回归定义二、模型步骤Step 1：模型假设 - 线性模型一元线性模型（单个特征）多元线性模型（多个特征）Step 2：模型评估 - 损失函数如何判断众多模型的好坏Step 3：最佳模型 - 梯度下降梯度下降推演最优模型的过程梯度下降算法在现实世界中面临的挑战w和b偏微分的计算方法如何验证训练好的模型的好坏总结前言这是我在Datawhale组队学习李宏毅机器学习的记录，既作为我学习过程中的一些记录，也供同好们一起交流研究，此后还会继续更新相关内容的博客。一、回归定义回归（Regres

2021李宏毅机器学习笔记--23 Theory behind GAN

guoxinxin0605的博客

09-05

453

2021李宏毅机器学习笔记--23 Theory behind GAN摘要一、Maximum Likelihood Estimation(最大似然估计)二、MLE=Minimize KL Divergence（最小KL散度）三、Generator四、Discriminator五、D*和divergence的关系证明六、知识回顾:KL散度、JS散度和交叉熵七、G*的目标八、GD Algorithm for GAN九、In practice(实做中)十、Algorithm for GAN总结摘要本章节主

2021李宏毅机器学习笔记--4 五种gradient descent梯度下降算法简介

guoxinxin0605的博客

05-02

386

2021李宏毅机器学习笔记--4 五种gradient descent梯度下降算法简介1 摘要2 五种梯度下降算法2.1 SGD2.2 SGD with momentum2.3 adagrad2.4 RMSprop2.5 Adam3 总结及展望 1 摘要本文主要介绍了多种梯度下降算法，梯度算法主要是用于帮助找到最好的函式，也就是loss损失最小的函式，以便于我们训练出最好的模型，不同的梯度下降算法有其自己的特点，本文主要介绍五种梯度下降算法。 2 五种梯度下降算法 2.1 SGD SGD是stochas

2021李宏毅机器学习笔记--3.1tensorflow安装与 gradient descent梯度下降练习

guoxinxin0605的博客

04-27

426

2021李宏毅机器学习笔记--3.1tensorflow安装 gradient descent梯度下降练习摘要1 tensorflow安装1.1 环境要求1.2 搭建开发环境2 用tensorflow进行gradient descent梯度下降练习2.1 源代码2.2 实验数据2.3 运行结果3 结果以及展望摘要本文主要介绍win7及以上版本的tensorflow安装的环境要求以及如何搭建环境进行安装，然后进行基础的梯度下降练习，梯度下降是机器学习课程中最基础的算法，用代码解释原理比较易懂。 1

基于深度学习的不遗忘训练

最新发布

weixin_42605076的博客

10-02

336

基于深度学习的不遗忘训练（也称为抗遗忘训练或持久性学习）是针对模型在学习新任务时可能会忘记已学习内容的一种解决方案。该方法旨在使深度学习模型在不断接收新信息的同时，保持对旧知识的记忆。

深度学习：DCGAN

Landy_Jay的博客

10-01

316

CDGAN（Deep Convolutional Generative Adversarial Networks），是GAN（Generative Adversarial Networks）的一种变体，它特别使用了卷积神经网络（CNNs）作为生成器和判别器的构建模块。DCGAN使用全卷积网络结构代替传统的池化层和全连接层。在生成器中采用转置卷积（也称为分数步长卷积或反卷积）来逐步增加图像的空间维度。在判别器中使用卷积层来逐步减少空间维度并提取特征。

基于Python的自然语言处理系列（19）：基于LSTM的语言模型实现

不想宅的冷同学

09-29

624

在本篇博文中，我们实现了一个基于LSTM的语言模型，探讨了其在自然语言处理中的重要性。通过对WikiText数据集的训练，我们了解了如何进行数据预处理、模型构建以及训练与评估过程。这一模型为理解语言生成打下了基础，也展示了如何使用PyTorch进行实际应用。随着对LSTM语言模型的深入理解，我们将在下一篇博文中转向更先进的Transformer模型及其在语言建模中的应用，期待与大家一同探讨Transformer如何提升自然语言处理的能力，并掌握束搜索等高效解码技术。希望继续激发大家对这一领域的热情与探索！

用于MRI重建的具有全局感受野的傅里叶卷积块|文献速递--基于多模态-半监督深度学习的病理学诊断与病灶分割

weixin_38594676的博客

09-26

988

在本研究中，我们提出了一种新颖的全局傅里叶卷积块（FCB），具有整个图像的感受野和较低的计算复杂度，通过将常规的空间域卷积转化为频率域实现。在本研究中，我们提出了一种新颖的全局傅里叶卷积块（FCB），具有整个图像的感受野和较低的计算复杂度，通过将常规的空间域卷积转化为频率域实现。这意味着，虽然傅里叶域中的卷积核 W 大小与输入相同，但它的空间对应物可以是一个大小为 K × K 的零填充卷积核，大小范围从 1 × 1 到输入大小 N × N 不等。顶部显示了8×加速的结果，底部显示了12×加速的结果。

《机器学习与深度学习：开启智能未来的钥匙》

OCR_wintone421的博客

09-26

910

它通过循环结构，将当前时刻的输入和上一时刻的输出作为当前时刻的输入，从而实现对序列数据的记忆和处理。DBN 算法通过逐层预训练的方式，有效地解决了深度学习模型的训练难题，为深度学习的发展带来了新的突破。深度学习模型具有强大的表达能力和学习能力，能够处理大规模、高维度的数据，并在图像识别、语音处理、自然语言处理等领域取得了显著的成就。在强化学习中，计算机通过不断地尝试不同的行动，并根据环境的反馈来调整自己的策略，以获得最大的奖励。然而，由于当时计算机硬件的限制和算法的复杂性，深度学习的发展一直比较缓慢。

深度学习500问——Chapter15：异构计算，GPU和框架选型（1）

不要给自己设限，尝试更多可能（思所向皆可往）

09-26

1234

异构计算是基于一个更加朴素的概念，“异构现象”，也就是不同计算平台之间，由于硬件结构（包括计算核心和内存），指令集和底层软件实现等方面的不同而有着不同的特性。异构计算就是使用结合了两个或者多个不同的计算平台，并进行协同运算。比如，比较常见的，在深度学习和机器学习中已经比较成熟的架构：CPU和GPU的异构计算；此外还有比较新的Google推出的协处理器（TPU），根据目的而定制的ASIC，可编程的FPGA等也都是现在在异构计算中使用比较多的协处理器。

深度解析：李宏毅机器学习笔记中的反向传播与优化策略

在【李宏毅机器学习笔记】系列中，第7篇笔记重点关注了反向传播（Backpropagation）这一关键概念，它是神经网络训练过程中提高效率的关键工具。在理解回归问题（Regression）和梯度下降（Gradient Descent）的基础上...