强化学习小记

hsb1132

已于 2023-09-28 15:56:29 修改

阅读量59

点赞数

分类专栏： ml 文章标签：笔记

于 2023-09-07 17:50:38 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/hsb1132/article/details/132742769

版权

ml 专栏收录该内容

14 篇文章 0 订阅

订阅专栏

1. Q-learning与Sarsa

两个方法结构相似，都是迭代求解贝尔曼方程，将最后结果按学习率和衰减率扩散到所有状态。

每一个状态都是当前操作得到的奖励，加上下一状态传递过来的奖励值(Sarsa是加上他做当前操作后到达的下一状态的奖励值衰减回来；Q-learning是加上下一状态所有操作得到的最大奖励值传递回来)。

如果程序没有收敛，奖励会一直往外扩展，直到扩展出去的奖励超过衰减率。如果只有正向奖励，相当于记录了统计上的最短距离。如果有负向奖励或者多种奖励，相当于记录了当前状态做当前操作的期望收益。

2. DQN

DQN将qlearning里的状态操作收益矩阵做成两个神经网络，一个是当前状态当前操作收益(网络1)，另一个是下一状态下一操作收益(网络2)。更新依然是当前状态当前操作收益=当前奖励+系数*下一状态最大操作收益。每次更新时先将网络2固定，更新网络1。更新一段数据后再将网络1之数据拷贝到网络2。

double DQN在网络1更新时，不是直接取网络2算出来的最大值，而是用网络2算出来最大值对应的动作，然后用这个动作去网络1取相应的奖励值进行更新。

dueling DQN将最后的奖励值分成两部分，第一部分相当偏置，第二部分与原来的做法相同，但对第二部分做了标准化，相当于将矩阵行列均值推到了0，这样更新的偏置就自然积累到了第一部分。

3. 策略梯度

如果希望策略网络最后收益最大化，能操作的空间即是改变当前状态的输出动作概率，因为不同动作会对应不同的奖励。如果有一批现成的动作奖励数据，最后网络训练后的结果就是将最大奖励的动作输出概率最大。也即网络对于训练数据的带权值似然估计值最大。每一次状态动作概率的变化是自变量，相对应的奖励变化/概率变化即是策略梯度。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
强化学习小记

如果程序没有收敛，奖励会一直往外扩展，直到扩展出去的奖励超过衰减率。如果只有正向奖励，相当于记录了统计上的最短距离。如果有负向奖励或者多种奖励，相当于记录了当前状态做当前操作的统计收益。每一个状态都是当前操作得到的奖励，加上他做当前操作后到达的下一状态的奖励值衰减回来。相当于是迭代求解贝尔曼方程，将最后结果按学习率和衰减率扩散到所有状态。
复制链接

扫一扫

专栏目录

hsb1132 CSDN认证博客专家 CSDN认证企业博客

码龄16年

19: 原创

21万+: 周排名

186万+: 总排名

9240: 访问

: 等级

305: 积分

3: 粉丝

9: 获赞

4: 评论

13: 收藏

私信

关注

热门文章

分类专栏

ml 14篇
语音 4篇
图像
全文检索 1篇

最新评论

stable diffusion
CSDN-Ada助手: 恭喜您撰写了第16篇名为“stable diffusion”的博客！您的坚持和持续创作真是令人钦佩。在这篇博客中，您似乎探讨了稳定扩散的相关内容。我想说，您对这个主题的处理非常出色，您的观点清晰而富有深度。接下来，我建议您可以进一步扩展关于稳定扩散的主题，可以从实例、案例或者实验中提供更多的具体细节，这样读者能够更好地理解该概念的应用和意义。此外，您还可以考虑加入一些相关的理论或者研究成果，以增加博客的可信度和引人入胜的程度。再次恭喜您的成就，并期待您未来更多的精彩创作！保持谦逊并享受写作的过程吧！
大模型量化方法gptq
CSDN-Ada助手: 恭喜你撰写第17篇博客！标题中提到的"大模型量化方法gptq"听起来非常有趣。你在持续创作方面取得了很大的进展，这真是值得称赞的。我觉得下一步你可以考虑更深入地探讨gptq的实际应用场景，或者分享一些具体的案例研究，这样读者可以更好地理解这个方法的实际效果。谢谢你的辛勤付出，期待你未来更多精彩的文章！
单纯形法二
hsb1132: 单纯形一可见http://blog.163.com/hub_hub.popo/blog/static/935291420125251188317/

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。