自定义博客皮肤VIP专享

*博客头图：

点击选择上传的图片

格式为PNG、JPG，宽度*高度大于1920*100像素，不超过2MB，主视觉建议放在右侧，请参照线上博客头图

请上传大于1920*100像素的图片！

博客底图：

点击选择上传的图片

图片格式为PNG、JPG，不超过1MB，可上下左右平铺至整个背景

栏目图：

点击选择上传的图片

图片格式为PNG、JPG，图片宽度*高度为300*38像素，不超过0.5MB

主标题颜色：

RGB颜色，例如：#AFAFAF

Hover：

RGB颜色，例如：#AFAFAF

副标题颜色：

RGB颜色，例如：#AFAFAF

预览取消提交

自定义博客皮肤

-+

上一步保存

布谷AI的专栏

专注机器学习，探索人工智能。

布谷AI CSDN认证博客专家 CSDN认证企业博客

码龄13年

43: 原创

7万+: 周排名

72万+: 总排名

16万+: 访问

: 等级

1354: 积分

26: 粉丝

127: 获赞

8: 评论

375: 收藏

私信

关注

热门文章

分类专栏

深度学习 9篇
强化学习 13篇
Shiny 2篇
R 3篇
ggplot2
PaddlePaddle
H2O-3
linux 8篇
机器学习 1篇
Python 8篇
Neo4J 6篇

最新评论

并行强化学习算法：A2C/A3C
weixin_44824820: 博主好，请问我用a3c在训练时效果很好，但测试时效果则达不到，而且有一些差距，lr调的也不是很低，可能是啥原因呢
强化学习优势函数(Advantage Function)
xioabaiya: 您好，为什么使用优势函数可以减少方差呢？
并行强化学习算法：A2C/A3C
Snoopy9797: A2C所有Agent的动作一样，并且都是从全局网络更新参数，那他所有的Agent不是一样了吗？
强化学习优势函数(Advantage Function)
醉此江湖: DRL中，Gamma理论上来说不能等于1，因为无法预估无限长度的步骤，只有预估有限长度未来奖励的期望
Python dict字典排序
ctotalk: 不错。

最新文章

强化学习

关注

强化学习方法及实践

关注数：文章数：13 文章阅读量：48950 文章收藏量：231

作者: 布谷AI

凡事尽量简单

展开