DL_Optimization_Day3

最新推荐文章于 2024-10-03 23:00:32 发布

小青鸭

最新推荐文章于 2024-10-03 23:00:32 发布

阅读量185

点赞数

文章标签：深度学习 python

本文链接：https://blog.csdn.net/tjjyqing/article/details/114260239

版权

Optimization

what is optimization

content

找到一个合适的参数的θ，使得L(θ)损失函数值最小

some notations

一些参数的含义如下所示
在这里插入图片描述

SGD

SGDM

SGD是梯度下降的算法，而SGDM中M代表momentum动量的意思。简而言之是在梯度下降的时候加上了一个向前冲的趋势，有利于摆脱梯度突然下降到局部最小值的点。（他不仅包含了上一步的梯度，还包括之前的趋势。）
在这里插入图片描述

RMSProp

在这里插入图片描述

Adam

Adam包含了前两者的特点
在这里插入图片描述

How to improve

在这里插入图片描述

Adam

速度快，但是不稳定。

SGDM

稳定，结果好，但是训练速度比较慢。

Lookahead

梯度下降的时候，走几步会退回来检查是否方向正确。避免突然掉入局部最低点。
在这里插入图片描述

AdamW SGDWM

这个是针对adam和sgdm各自的问题，有一定应用的改进
在这里插入图片描述

Something helps optimization

Normalization
Regularization
Warm up
Curriculum learning
Fine-tuning

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

小青鸭

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

DL: 主流优化算法（Optimization）

u011304078的博客

11-26

1034

深度学习中的优化器原理总结（经典+前沿）

qq_42514662的博客

10-22

4079

目录前言一、梯度下降的思想与批梯度下降法 1.随机梯度下降法 2.标准梯度下降法 3.批梯度下降法二、经典的五类优化器 1.SGD 2.SGD with momentum(SGDM) 3.Adagrad 4.RMSProp 5.Adam 三、前沿方法 1.AMSGrad 2.AdaBound 3.SWAT 4.Cyclical LR/SGDR/One-cycle LR 5.RAdam 6.Lookahead 7.SGDWM/AdamW 8.一些帮助优化的方法 .

参与评论您还未登录，请先登录后发表或查看评论

#深入探究# Adam和SGDM优化器的对比

lch551218的博客

06-07

1万+

1. Adma 和 MSGD Adam和MSGD作为当今最优秀的两种深度学习优化器，分别在效率和精度上有着各自的优势，下面我们将分析两种优化器各自优势的原因，两边的两张图分别是几种常见的优化器在猫狗分类数据集上的分类准确率曲线，第一个是训练集，第二个是测试集以下两张图是某个NLP任务中，几种模型的准确率和困惑度指标变换曲线通过上边两幅图片可知： Adma在训练集上的准确率较高，MSGD在测试集上的准确率较高 Adma的速度更快，但MSGD能够得到好的效果第一个结论可以用下边这个图来解释：

李宏毅机器学习笔记8：Optimization

chairon的博客

12-15

583

New Optimizers for Deep Learning 梯度下降： SGD SGD with momentum Adaptive learning rate： Adagrad RMSProp Adam Some Notations ????t ∇????(????????) ???? ????+1 在step t时的参数下降的梯度前面t步积累的动量，用来计算????????+1 Optimization’s aim 找到一个参数 ???? 使属性x的损失函数总和最小，

深度学习最全优化方法总结比较（SGD，Adagrad，Adadelta，Adam，Adamax，Nadam）

热门推荐

余昌黔|书山有路

08-24

6万+

前言（标题不能再中二了）本文仅对一些常见的优化方法进行直观介绍和简单的比较，各种优化方法的详细内容及公式只好去认真啃论文了，在此我就不赘述了。SGD此处的SGD指mini-batch gradient descent，关于batch gradient descent, stochastic gradient descent, 以及 mini-batch gradient descent的具体区别就不

day36__-->html

diantuoba5990的博客

09-07

225

day36 转载自https://www.cnblogs.com/majj/category/1218953.html 01-html介绍和head标签 html !加tab 键就将后续html补充了 w3c：万维网联盟组织，用来制定web标准的机构（组织） web标准：制作网页遵循的规范 web准备规范的分类：结构标准、表现标准、行为标准...

web一阶段 day14

gaoyuan0277的博客

07-30

337

AdobePhotoshop，简称“PS”]，是由Adobe开发和发行的[图像处理软件]。Photoshop主要处理以像素所构成的数字图像。使用其众多的编修与绘图工具，可以有效地进行图片编辑工作。ps有很多功能，在图像、图形、文字、视频、出版等各方面都有涉及。小U课堂。...

品优购PC项目学习详解(H5、CSS3综合案例Day9)

学习是最低成本的投资

06-04

605

品优购项目规划、品优购项目搭建、项目模块化开发、TDK三大标签SEO优化、网站favicon图标制作、header头部制作、shortcut制作、nav导航模块制作、footer底部制作

目标跟踪论文代码汇总

如果想成为中心，那么就到中心去吧。

07-21

559

近年来，分割任意模型（SAM）因其对图像分割性能而迅速获得了广泛的关注。由于其较强的图像分割能力和不同提示的高交互性，我们发现其在视频一致性分割效果较差。因此，在本报告中，我们提出了跟踪任何事物模型（TAM），它可以在视频中实现高性能的交互式跟踪和分割。详细地说，给定一个视频序列，只有很少的人类参与，也就是说，几次点击，人们可以跟踪任何他们感兴趣的东西，并在本体推理中得到令人满意的结果。没有额外的训练，这种交互式设计执行的视频对象跟踪和分割令人印象深刻。

『NLP学习笔记』Pytorch中的DNN训练流程介绍

AI新视界

10-27

1185

Few-shot Learning技术介绍！文章目录一. What is PyTorch?二. Overview of the DNN Training Procedure 一. What is PyTorch? An open source machine learning framework. A Python package that provides two high-level features: 1. Tensor computation (like NumPy) with strong

Unity3d 周分享（21期 2019.7.30 ）

游戏路上的小学生

09-14

3468

选自过去1~2周自己所看到外文内容：https://twitter.com/unity3d 和各种其他博客来源吧 1、官方文档中提到一个优化：不知道性能到底如何~~ Mass object movement & CullingGroups As mentioned in the section on Transform Manipulation, moving larg...

Spark+AI Summit 2019 PPT 下载[共124个]

过往记忆大数据

09-21

2173

为期三天的 SPARK + AI SUMMIT 2019 于 2019年04月23日-25日在旧金山（San Francisco）进行。数据和 AI 是需要结合的，而Spark能够处理海量数据的分析，将Spark和 AI 进行结合，无疑会带来更好的产品。作为大数据领域的顶级会议，Spark+AI Summit 2019 吸引了全球大量技术大咖参会，而且 Spark+AI Summit 越做...

DL总结(三)---Optimization Algorithms优化算法

He_YI的博客

04-24

674

initialization(参数初始化对模型的影响) regularization(正则化解决模型过拟合问题) 正则化随机失活(drop out) normalizing input(归一化输入) mini-batch(小批量梯度下降算法) exponetially weighted average(指数加权平均) bias correction(偏差修正) momentum(动量梯度下降算法...

基于CNN+Transformer混合模型实现交通流量时序预测(PyTorch版)

君子不器大道无方

09-30

1405

本文旨在详细介绍如何使用PyTorch框架实现基于CNN+Transformer的混合模型，并将其应用于交通流量时序预测任务。我们将从模型架构、数据处理、训练优化等多个方面进行深入剖析，力求为读者提供一个全面、系统的学习与实践指南。希望通过本文的介绍，读者能够掌握CNN+Transformer混合模型的基本原理与实现方法，并能够在实际交通流量预测任务中灵活应用，为城市交通管理与规划贡献自己的力量。

深度学习：DCGAN

Landy_Jay的博客

10-01

361

CDGAN（Deep Convolutional Generative Adversarial Networks），是GAN（Generative Adversarial Networks）的一种变体，它特别使用了卷积神经网络（CNNs）作为生成器和判别器的构建模块。DCGAN使用全卷积网络结构代替传统的池化层和全连接层。在生成器中采用转置卷积（也称为分数步长卷积或反卷积）来逐步增加图像的空间维度。在判别器中使用卷积层来逐步减少空间维度并提取特征。

AI学习指南深度学习篇-批标准化（Batch Normalization）简介

俞兆鹏的博客

09-28

828

批标准化是深度学习领域不可或缺的重要技术之一，极大地提高了训练速度和模型性能。它通过标准化中间层的输出，减轻了内部协变量偏移的影响，有效解决了训练过程中常见的问题。从传统的深度网络到现代复杂模型，批标准化为深度学习的快速发展做出了重要贡献。在实际应用中，理解并有效利用批标准化的特性，可以帮助我们构建更高效、准确的深度学习模型。继续深入研究和探索批标准化在其他网络构架中的应用，将进一步推动深度学习的发展与多样性。

深度学习-----------------机器翻译与数据集

Einstein·Jun

10-03

219

绘制每个文本序列所包含的标记数量的直方图。

基于深度学习的视频摘要生成