Q Learning vs Policy Gradients

最新推荐文章于 2024-07-30 01:27:39 发布

liyaohhh

最新推荐文章于 2024-07-30 01:27:39 发布

阅读量882

点赞数

分类专栏：深度学习入门

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/liyaohhh/article/details/81784036

版权

深度学习入门专栏收录该内容

38 篇文章 1 订阅

订阅专栏

Policy Gradients is generally believed to be able to apply to a wider range of problems. For instance, on occasions when the Q function (i.e. reward function) is too complex to be learned, DQN will fail miserably.
Policy Gradients is still capable of learning a good policy since it directly operates in the policy space.
, Policy Gradients usually show faster convergence rate than DQN, but has a tendency to converge to a local optimal.
Since Policy Gradients model probabilities of actions, it is capable of learning stochastic policies
Policy Gradients can be easily applied to model continuous action space since the policy network is designed to model probability distribution, DQN has to go through an expensive action discretization process
one of the biggest drawbacks of Policy Gradients is the high variance in estimating the gradient

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

liyaohhh CSDN认证博客专家 CSDN认证企业博客

码龄12年

99: 原创

12万+: 周排名

222万+: 总排名

80万+: 访问

: 等级

5867: 积分

281: 粉丝

165: 获赞

126: 评论

482: 收藏

私信

关注

热门文章

分类专栏

最新评论

机器学习：浅谈先验概率，后验概率
m0_49230748: 博主好！请问能列一下参考文献吗？没看懂
深度学习笔记（一）空间金字塔池化阅读笔记Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition
anco0923: 另外有一个问题，比如我的输入变化很大，有的1000x1000，有的500x500，经过比如5层卷积后，特征图大小是变化的，这时如果要固定输出，就必须用到adaptivepooling。那么，SPP的价值是什么呢？和adaptivepooling不就是一个东西么？我总不能每次都手动计算好池化的参数把，那样其实也已经固定了输入了
深度学习笔记（一）空间金字塔池化阅读笔记Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition
anco0923: 最后解释有误（应该是笔误），按照原文，conv5的输出为256,13,13 (通道数，高，宽)的特征图，SPP的池化左侧输出4x4，中间输出2x2，右侧输出1x1，即左侧对13x13这样256张图像进行减采样，减采样至4x4，而非原文的3x3。stride和filter_size可以通过池化公式 new_size = (I - F) /S +1得到，F是池化的窗口大小（几个元素选一个），S是步长。比如最左侧的输出大小4x4，那么4 = (13 - F)/S+1 得到可行的F，S = 4, 3，而非博客所写的4,5。
hive入门学习：explain执行计划的理解
知行一AI: 听君一席话如听一席话
深度学习入门;图像的heatMap
哦-是我: 这也算heatmap吗

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。