Keras手册记录之optimizer，待更新各个算法详解！

最新推荐文章于 2023-09-21 22:06:26 发布

阿喵要当程序员

最新推荐文章于 2023-09-21 22:06:26 发布

阅读量3k

点赞数 2

分类专栏： dl keras 文章标签： optimizer keras dl

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/mashutian/article/details/88351852

版权

dl 同时被 2 个专栏收录

2 篇文章 0 订阅

订阅专栏

2 篇文章 0 订阅

订阅专栏

optimizer：https://keras.io/optimizers/

下面recommended to leave the parameters of this optimizer at their default values的优化算法，名字旁边打星号

SGD

keras.optimizers.SGD(lr=0.01, momentum=0.0, decay=0.0, nesterov=False)

RMSprop 适用于RNN*

keras.optimizers.RMSprop(lr=0.001, rho=0.9, epsilon=None, decay=0.0)

链接：http://www.cs.toronto.edu/~tijmen/csc321/slides/lecture_slides_lec6.pdf

Adagrad*

keras.optimizers.Adagrad(lr=0.01, epsilon=None, decay=0.0)

Adagrad is an optimizer with parameter-specific learning rates, which are adapted relative to how frequently a parameter gets updated during training. The more updates a parameter receives, the smaller the learning rate.

链接：http://www.jmlr.org/papers/volume12/duchi11a/duchi11a.pdf

Adadelta，a more robust extension of Adagrad*

keras.optimizers.Adadelta(lr=1.0, rho=0.95, epsilon=None, decay=0.0)

链接：https://arxiv.org/abs/1212.5701

Adam

keras.optimizers.Adam(lr=0.001, beta_1=0.9, beta_2=0.999, epsilon=None, decay=0.0, amsgrad=False)

链接：

https://arxiv.org/abs/1412.6980v8

https://openreview.net/forum?id=ryQu7f-RZ

Adamax，a variant of Adam based on the infinity norm

keras.optimizers.Adamax(lr=0.002, beta_1=0.9, beta_2=0.999, epsilon=None, decay=0.0)

链接同adam

Nadam*，Much like Adam is essentially RMSprop with momentum, Nadam is Adam RMSprop with Nesterov momentum.

keras.optimizers.Nadam(lr=0.002, beta_1=0.9, beta_2=0.999, epsilon=None, schedule_decay=0.004)

链接：

http://cs229.stanford.edu/proj2015/054_report.pdf

http://www.cs.toronto.edu/~fritz/absps/momentum.pdf

阿喵要当程序员

关注

2
点赞
踩
9

收藏

觉得还不错? 一键收藏
0
评论
Keras手册记录之optimizer，待更新各个算法详解！

optimizer：https://keras.io/optimizers/下面recommended to leave the parameters of this optimizer at their default values的优化算法，名字旁边打星号SGDkeras.optimizers.SGD(lr=0.01, momentum=0.0, decay=0.0, neste...
复制链接

扫一扫

专栏目录

阿喵要当程序员 CSDN认证博客专家 CSDN认证企业博客

码龄13年

34: 原创

11万+: 周排名

3万+: 总排名

4万+: 访问

: 等级

977: 积分

312: 粉丝

413: 获赞

29: 评论

374: 收藏

私信

关注

热门文章

分类专栏

刷题 1篇
统计 2篇
nlp 18篇
dl 2篇
keras 2篇

最新评论

RAFT: Adapting Language Model to Domain Specific RAG阅读笔记
阿喵要当程序员: RAG最开始的输入，也就是你的数据库肯定是整个PDF，但是retrieve后就应该是文档片段了，然后这个片段再拿去进一步操作（放prompt里或者训练啥的）
RAFT: Adapting Language Model to Domain Specific RAG阅读笔记
阿喵要当程序员: llama-factory没有context的字段，你要不要试试input的时候加入context
RAFT: Adapting Language Model to Domain Specific RAG阅读笔记
Wo丶好期待: 而且没有context微调一定是错的，但是我好像没找到这四个在一起怎么微调
RAFT: Adapting Language Model to Domain Specific RAG阅读笔记
Wo丶好期待: 我试过了，现在有两个问题。第一就是数据集的问题，应该是把 Q A instruction context数据集一起微调，因为我没有azure账号，所以没在azure里面微调，我在llama-factory微调的，不过好像没有加入context的形式的数据集类型。当然我在github上看他们的代码把这个中类型转换成了completion或者chat类型就好像也没有context。第二就是rag，rag的内容是挂分割文档前的pdf吗？
Llama模型下载
深圳王哥: 文章清晰介绍了Lamassu2包在LHCb计算网格中从Metatron系统下载数据的方法，通过实例展示了如何针对特定数据集、数据子集和文件类型进行下载，对需要处理类似数据集的读者很有帮助。

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。