Deep Learning
文章平均质量分 84
chansonzhang
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
各种优化器的比较
本文概述了几种优化算法的核心思想:SGD直接沿负梯度方向更新参数,但可能在非均向函数中呈现低效的"之"字形路径;Momentum引入速度变量,通过积累梯度动量来抑制震荡方向的更新,加速稳定方向的收敛;AdaGrad为每个参数自适应调整学习率,通过历史梯度累加抑制频繁变动参数的更新幅度,其改进版RMSProp采用指数移动平均来避免过早停止更新;Adam结合了Momentum和AdaGrad的优点,同时考虑梯度的一阶矩(均值)和二阶矩(方差)进行更智能的参数更新。这些算法逐步解决了基础SGD原创 2026-03-24 11:07:02 · 39 阅读 · 0 评论 -
[Paper Notes] Sequence to Sequence Learning with Neural Networks
Introduction 这篇文章有点类似于 RNN Encoder-Decoder 主要思想是:使用 LSTM 将源序列编码为一个固定维度的向量表示,然后使用另外一个 LSTM 从向量表示中解码出目标序列。 数据集: WMT’14 English to French Result: BLEU Score Baseline(CSLM) 33.30 提出的模型 34.81 rescore 1000-best lists of the baseline 36.5 best published result 37原创 2021-05-09 00:38:21 · 202 阅读 · 0 评论 -
[Paper Notes] Learning Phrase Representations using RNN Encoder-Decoder
Learning Phrase Representations using RNN Encoder-Decoder for Statistical Machine Translation Abstract 提出了Encoder-Decoder结构,包含两个RNN 其中一个将序列编码为固定长度的向量表示 Decoder将向量解码为目标序列 两个RNN是联合训练的,训练目标是给定源序列的情况下,最大化目标序列的条件概率。 在已有的log-linear翻译模型中使用Encoder-Decoder计算出来的条件概率原创 2021-03-31 23:20:48 · 481 阅读 · 0 评论
分享