深度强化学习

gghnb

已于 2024-03-13 14:55:33 修改

阅读量398

点赞数 9

文章标签：人工智能深度学习

于 2024-03-08 13:42:03 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/gghnb/article/details/136531507

版权

策略学习：用神经网络来近似策略函数Π（a|s）

用策略网络Π（a|s;θ）去近似策略函数Π（a|s）；

其中θ为神经网络的训练参数

改进参数θ使得模型越变越好

改进θ使用Policy gradient ascent（策略梯度上升）

观察状态s

用以下公式更新θ：

其中v（s；θ）表示状态价值函数，β表示学习率，而叫做策略梯度。

可以通过下面两个公式计算策略梯度（第一种适合动作离散，第二种适合连续）

Actor-Critic Methods（策略学习+价值学习）

用以下步骤同时更新两个参数θ和w

算法总结

蒙特卡洛树搜索：

1.selection：玩家自己走一步action（假设走）

2.expansion：对手根据police network也走一步，更新状态（假设走）

3.evaluation：价值网络给当前状态打分为v，玩游戏到结束收到奖励r，把（v+r）/2当作动作a的打分

4.backup：用（v+r）/2更新动作价值函数

细说：1.selection

（1）首先给每个动作a打一个分数

其中Q（a）为动作价值（初始默认为0，初始完全由策略网络决定）

Π为police network给动作a打的分

N（a）为动作a被探索的次数，随着a探索次数越来越多，分数主要有Q（a）决定

η为参数，手动调整

（2）选择分数最高的动作a

2.expansion

用策略函数Π来代替状态转移函数，并根据随机抽样选出对手的下一步a‘

3.evaluation

自博弈，玩完游戏最后得到奖励r，win：r=1，loss：r=-1

把s（t+1）给价值网络获得分数v（s（t+1）；w）

上述两个值求平均记录为当前状态分数

4.backup

把一个动作后面的所有状态的得分求平均作为当前动作a的得分Q（a）

关注

9
点赞
踩
7

收藏

觉得还不错? 一键收藏
1
评论
深度强化学习

3.evaluation：价值网络给当前状态打分为v，玩游戏到结束收到奖励r，把（v+r）/2当作动作a的打分。N（a）为动作a被探索的次数，随着a探索次数越来越多，分数主要有Q（a）决定。其中Q（a）为动作价值（初始默认为0，初始完全由策略网络决定）把s（t+1）给价值网络获得分数v（s（t+1）；把一个动作后面的所有状态的得分求平均作为当前动作a的得分Q（a）4.backup：用（v+r）/2更新动作价值函数。策略学习：用神经网络来近似策略函数Π（a|s）（2）选择分数最高的动作a。
复制链接

扫一扫

gghnb CSDN认证博客专家 CSDN认证企业博客

码龄5年

5: 原创

130万+: 周排名

18万+: 总排名

1979: 访问

: 等级

90: 积分

31: 粉丝

40: 获赞

4: 评论

39: 收藏

私信

关注

热门文章

最新评论

用于优化问题的建模语言
CSDN-Ada助手: 恭喜你发布了第三篇博客：“用于优化问题的建模语言”，内容非常有深度和价值。持续创作是提升自己的最好方式，希望你能坚持下去，为读者带来更多的启发和收获。建议在下一篇博客中，可以尝试探讨一些实际案例，结合具体的应用场景，让读者更容易理解和接受你的观点。期待你的更多精彩内容！ CSDN 正在通过评论红包奖励优秀博客，请看红包流：https://bbs.csdn.net/?type=4&header=0&utm_source=csdn_ai_ada_blog_reply3
优化求解器
CSDN-Ada助手: 恭喜您写了第四篇博客“优化求解器”！不断分享优化求解器的知识，让读者受益匪浅。希望在未来的创作中，可以继续深入探讨求解器的优化方法，或者结合实际案例进行分析，这样读者会更加受益。期待您的下一篇博客！继续加油！如何快速涨粉，请看该博主的分享：https://hope-wisdom.blog.csdn.net/article/details/130544967?utm_source=csdn_ai_ada_blog_reply5
深度强化学习
CSDN-Ada助手: 恭喜您开始了博客创作，标题为“深度强化学习”着实引人注目！深度强化学习是一个非常有趣和前沿的领域，希望您能够在接下来的博客中深入探讨这一主题，分享您对于深度强化学习的见解和经验。同时，建议您在未来的创作中，可以结合实际案例或者个人实践经验，让读者更容易理解和接受您的观点。期待看到更多精彩的内容，加油！推荐【每天值得看】：https://bbs.csdn.net/forums/csdnnews?typeId=21804&utm_source=csdn_ai_ada_blog_reply1
强化学习算法
CSDN-Ada助手: 这篇博文对强化学习算法进行了简洁清晰的介绍，对于想要了解这方面知识的读者来说十分有用。希望作者能够继续分享更多关于算法和人工智能方面的知识，让更多人受益。除了ε-greedy策略外，还可以了解一些其他常见的强化学习策略，比如softmax策略、upper confidence bound策略等。另外，在执行动作时，还可以深入了解不同环境反馈的处理方式，比如如何处理负奖励、如何应对不确定性环境等问题。希望作者能够在今后的博文中涉及到这些扩展知识，让读者的视野更加开阔。期待您的更多精彩分享！如何写出更高质量的博客，请看该博主的分享：https://blog.csdn.net/lmy_520/article/details/128686434?utm_source=csdn_ai_ada_blog_reply2

大家在看

最新文章

目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。