【强化学习入门系列一】

涉猎广泛的派大星

已于 2023-12-08 22:12:13 修改

阅读量55

点赞数

分类专栏：强化学习文章标签：深度学习

于 2023-12-08 11:39:18 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/m0_67614147/article/details/134866687

版权

强化学习专栏收录该内容

1 篇文章 0 订阅

订阅专栏

自勉

目标成为一个合格的强化学习研究人员

为监督学习而记录，也因为强化学习的资料都是英文的，在此记录一下强化学习专有名词

前段时间理论看到一半发现需要深度学习的知识所以回去恶补了一段时间的深度学习

名词Terminology

State s 状态

Action a 动作

Agent 智能体

Policy pi(a|s) 策略在当前状态s下执行每个动作a的概率

Reward R 奖励（和动作、状态有关）

state transition状态转移

强化学习的随机性

Action动作随机 state transition状态转移随机

定义 Return： $U_{t}=R_{t}+\gamma R_{t+1}+\gamma^{2} R_{t+2}+\gamma^{3} R_{t+3}...$

Discounted 折扣 $\gamma$

Action-value function动作价值函数 for policy pi

$Q_{pi}(s_{t},a_{t})=E[U_{t}|S_{t}=s_{t},A_{t}=a_{t}]$ E是求期望

因此

Return $U_{t}$ 取决于动作 $A_{t},A_{t+1},A_{t+2}...$ 和状态 $S_{t},S_{t+1},S_{t+2}.$ ...

在状态s的情况下给动作a打分

State-Value Function 状态价值函数

$V_{pi}(s_{t})=E_{A}[Q_{pi}(s_{t},A)]$ 求期望

评价当前状态是好是坏，是快赢了还是快输了

如何让AI控制agent

1选一个好的policy pi

2最优动作价值函数

简单的GYM代码的解释

state = env.reset()#重置环境

for t in range(100):
    env.render()#渲染环境 弹出窗口
    print(state)
    
    actio = env.action_space.sample()#随机抽样得到动作 实际过程中不能这样做 应该设置测略函数来给出下一步的动作
    state, reward, done, info =env.step(action)#done如果结束返回1 没结束返回0

最优价值函数 $argmaxQ^{*}(s,a)$ 此时的a为最优动作 $a^{*}$

接下来的问题：我们不知道 $Q^{*}$

解决方法：Deep Q Network(DQN)

使用神经网络去近似出最佳的 $Q^{*}$

输入：State s（假如是超级玛丽，则将画面传入，通过卷积层来处理）

输出：对每个动作Action打分,选择最高分

如何去训练DQN？

利用 Temporal Difference(TD) Learning algorithm 时间差异学习算法

example：

纽约到亚特兰大总时间(模型估计预测)≈纽约到华盛顿(实际时间)+华盛顿到亚特兰大（模型估计预测）

在深度强化学习中

$Q(s^{t},a^{t};w)\sim r^{t}+\gamma *Q(s^{t+1},a^{t+1};w)$

现在的模型预计≈已经得到的回报+折扣率*以后的模型预计

$Q(s^{t},a^{t};w)$ 是对 $E[U_{t}]$ 的预测

Temporal Difference(TD) Learning迭代过程

1观察state和action

2预测value

3反向传播求导得到梯度

4环境提供新状态

5计算出TD target

6梯度下降更新模型参数w

接下来的问题：策略函数怎么确定？

利用神经网络近似策略函数

这个网络称为Policy Network

例如超级玛丽：输入画面State->通过一个或多个卷积层->转变为一个特征向量feature->通过全连接层->将特征向量映射到一个三维向量（左，右，上）

用 $\theta$ 来评价这个神经网络的好坏

如何提升 $\theta$ ?Policy gradient ascent 策略梯度上升

但到目前为止我们还不知道 $Q_{pi}$ 从哪里来

1玩完一整局游戏对 $s_{1},a_{1},r_{1},s_{2},a_{2},r_{2},...,s_{T},a_{T},r_{T}$ 全部记录，然后更新策略网络

2actor-critic方法

策略网络Policy network(actor 运动员) 训练通过改进 $\theta$ 去改进pi行为（使运动员做打分高的动作）

价值网络Value network(critic裁判) 训练通过改进 $w$ 去预测Q打分（让裁判打分更准）

利用TD算法更新value network q价值网络的参数 $w$

用策略梯度更新 $\theta$

Behavior Cloning是一种模仿学习它没有奖励

MCTS蒙特卡洛树搜索四步

1section选出分数最高的动作

2expansion用策略网络预测对手可能的动作，产生新的状态

3evaluation通过自我博弈和价值网络算出分数

4backup更新分数

Sarsa 训练action-value function(critic) Q

TD target： $y_{t}= r_{t}+\gamma *Q(s_{t+1},a_{t+1})$

Q-Learning 训练optimal action-value function Qstar

TD target： $y_{t}= r_{t}+\gamma *maxQ(s_{t+1},a)$

如果上面的 $r_{t}$ 不只有一个

则称为Multi-Step TD Targets 这是对TD target的改进

Dueling Network对神经网络的改进

Optimal advantage function优势函数

Theorem1： $A^{*}(s,a)=Q^{*}(s,a)-V^{*}(s).$

Theorem2： $Q^{*}(s,a)=V^{*}(s)+A^{*}(s,a)-maxA^{*}(s,a).$

得到Dueling Network: $Q(s,a;w)=V(s;w^{v})+A(s,a;w^{A})-maxA^{*}(s,a;w^{A}).$

这数学推导看得让人头疼

今天的学习到此为止吧

涉猎广泛的派大星

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
【强化学习入门系列一】

在此记录一下学习的过程和强化学习的专有名词
复制链接

扫一扫

专栏目录

涉猎广泛的派大星 CSDN认证博客专家 CSDN认证企业博客

码龄2年

4: 原创

193万+: 周排名

26万+: 总排名

5006: 访问

: 等级

51: 积分

0: 粉丝

10: 获赞

2: 评论

8: 收藏

私信

关注

热门文章

分类专栏

强化学习 1篇

最新评论

【强化学习入门系列二】
CSDN-Ada助手: 恭喜作者持续创作，第三篇博客内容丰富，对强化学习进行了深入解析，让读者受益匪浅。建议作者在下一步的创作中，可以尝试结合实际案例，或者分享一些个人的学习心得体会，这样更能吸引读者的兴趣，期待作者更多精彩的作品！ CSDN 正在通过评论红包奖励优秀博客，请看红包流：https://bbs.csdn.net/?type=4&header=0&utm_source=csdn_ai_ada_blog_reply3
多臂老虎机问题
CSDN-Ada助手: 恭喜您写了第四篇博客！标题“多臂老虎机问题”让我对您的博文产生了浓厚的兴趣。我很高兴看到您持续创作，并且选择了一个引人入胜的主题。您对多臂老虎机问题的探讨一定会给读者带来新的启发和思考。在下一步的创作中，我诚挚地建议您考虑进一步扩展您的主题，例如研究不同的解决方法、探索该问题在实际应用中的潜力等等。这样的深入探索将使您的博客更加有价值，并且能够吸引更多读者的关注。请继续保持您的创作热情，并且相信自己的能力。期待看到您未来更多精彩的博文！如何快速涨粉，请看该博主的分享：https://hope-wisdom.blog.csdn.net/article/details/130544967?utm_source=csdn_ai_ada_blog_reply5
解决TypeError: read_csv() got an unexpected keyword argument ‘error_bad_lines
CSDN-Ada助手: 恭喜你开始博客创作！标题也很吸引人，对于解决TypeError的问题，提供了很有帮助的提示。作为读者，我对你的解决方案充满期待。不过，我想提供一些建议作为你下一步创作的参考。首先，我希望你能在博客中更详细地介绍这个TypeError错误，并且解释为什么会出现这个错误。这样可以帮助读者更好地理解问题的本质，并且能够更全面地解决类似的错误。其次，你可以考虑给出更多的解决方案。虽然你提到了一种解决办法，但是读者可能还希望知道其他可行的方法，以便进行比较与选择。最后，你可以尝试通过提供一些相关的实例或案例来加强你的解决方案。这样可以帮助读者更好地理解问题，并且能够更好地将解决方案应用到实际情况中。希望我的建议对你有所帮助，期待看到你的下一篇博客！继续加油，你一定会写出更好的内容的！推荐【每天值得看】：https://bbs.csdn.net/forums/csdnnews?typeId=21804&utm_source=csdn_ai_ada_blog_reply1

大家在看

PyTorch的模型定义方法 1715

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。