自定义博客皮肤VIP专享

*博客头图：

点击选择上传的图片

格式为PNG、JPG，宽度*高度大于1920*100像素，不超过2MB，主视觉建议放在右侧，请参照线上博客头图

请上传大于1920*100像素的图片！

博客底图：

点击选择上传的图片

图片格式为PNG、JPG，不超过1MB，可上下左右平铺至整个背景

栏目图：

点击选择上传的图片

图片格式为PNG、JPG，图片宽度*高度为300*38像素，不超过0.5MB

主标题颜色：

RGB颜色，例如：#AFAFAF

Hover：

RGB颜色，例如：#AFAFAF

副标题颜色：

RGB颜色，例如：#AFAFAF

预览取消提交

自定义博客皮肤

-+

上一步保存

李兰溪的专栏

君子生非异也，善假于物也

强化学习

关注

关注数：文章数：1 文章阅读量：11082 文章收藏量：49

作者: 李兰溪

好奇并探索着

展开

策略梯度与A2C算法

文章目录从Q learning到策略梯度AC算法A2C算法从Q learning到策略梯度在解决MDP问题的算法中，Value Base类算法的思路将关注点放在价值函数上，传统的Q Learning等算法是一个很好的例子。Q Learning通过与环境的交互，不断学习逼近(状态, 行为)价值函数Q(st,at)Q(s_t, a_t)Q(st,at)，而策略本身即选取使得在特定状态下价值函数...

原创 2019-08-25 10:45:46 · 11082 阅读 · 1 评论