深度学习18-C置信域：PPO、TRPO、ACKTR及SA

最新推荐文章于 2024-05-28 09:45:38 发布

五百五。

最新推荐文章于 2024-05-28 09:45:38 发布

阅读量1.2k

点赞数 1

分类专栏：深度学习文章标签：深度学习人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/clayhell/article/details/128638784

版权

### C置信域：PPO、TRPO、ACKTR及SA

▪ 近端策略优化（PPO）。
▪ 置信域策略优化（TRPO）。
▪ 使用了Kronecker-factored trust region（ACKTR）的A2C。

TRPO是由伯克利研究人员于2015年在John Schulman等人的论文“Trust Region Policy Optimization”(arXiv: 1502.05477)中提出的。该论文是为了提高随机策略梯度优化的稳定性和一致性，并且在各种控制任务上均显示出良好的效果。
不过，论文和方法具有相当复杂的数学知识背景，所以理解该方法的细节比较困难。实现也很复杂，它使用了共轭梯度方法来有效解决限制优化问题

我们将比较的第三种方法ACKTR使用不同的方法来解决SGD的稳定性问题。Wu Yuhuai等人在2017年发表的论文“Scalable Trust- Region Method for Deep Reinforcement Learning Using Kronecker-Factored Approximation”（arXiv：1708.05144）中，作者将二阶优化方法和置信域方法结合在一起。
二阶方法的思想是通过采用优化函数的二阶导数（即曲率）来改进传统SGD，以提高优化过程的收敛性。让事情变得更复杂的是，二阶导数通常需要你自己构建并反转Hessian矩阵，该矩阵可能会过大，因此实际方法通常会与二阶方法比较近似，但不完全一样。这个领域的研究目前非常活跃，因为开发健壮、可扩展的优化方法对于整个机器学习领域非常重要。
二阶方法中有一个Kronecker-Factored Approximate Curvature (K-FAC)方法，该方法由James Martens和Rog

最低0.47元/天解锁文章

关注

1
点赞
踩
3

收藏

觉得还不错? 一键收藏
打赏
0
评论
深度学习18-C置信域：PPO、TRPO、ACKTR及SA

C置信域：PPO、TRPO、ACKTR及SA
复制链接

扫一扫

专栏目录

五百五。 CSDN认证博客专家 CSDN认证企业博客

码龄5年

大连交通大学

177: 原创

104万+: 周排名

28万+: 总排名

22万+: 访问

: 等级

2124: 积分

245: 粉丝

290: 获赞

52: 评论

1518: 收藏

私信

关注

热门文章

分类专栏

Redis 7篇
QT 15篇
linux 1篇
游戏 1篇
c++入门 18篇
c++语言特性 23篇
算法基础 1篇
计算机基础 1篇
网络 2篇
c++面试 7篇
TCP/IP 7篇
OpenGL 1篇
docker 1篇
CMAKE 3篇
yolov5 2篇
设计模式 14篇
小白大牛漫话c++ 7篇
深度学习 45篇
牛客刷题 19篇
编程小技巧 1篇

最新评论

c++二叉树遍历
2303_81492929: preOrderIterative函数，得用啥定义啊
c++详解之右值引用
yslhk1982: 个人感觉main函数的有值引用部分： // 传递一个右值给 func() func(MyString("Hello, rvalue!")); 应该改为： func(MyString(move(str))); 否则虽然调用了右值引用的重载函数，但是重载函数没有调用到对象的右值构造函数上，还是调用MyString对象的左值引用的构造函数。个人见解，不一定对，望赐教！
学会吊打面试官之underedmap
阿J~: 很详细呀感谢老哥分享！
三次握手详解，全网最全
不独入寝可成梦: 第三次握手不是可以携带数据吗？
c++二叉树遍历
磁铁小破孩: 支持博主优质文章，讲解的非常详细，干货满满，通俗易懂，希望博主也能来我博客指导一番

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

五百五。 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。