强化学习奖励和状态设计

最新推荐文章于 2025-03-12 15:57:01 发布

Enoch Liu98

最新推荐文章于 2025-03-12 15:57:01 发布

阅读量5.1k

点赞数 4

分类专栏： RL 文章标签：算法强化学习 python 机器学习

原文链接：https://blog.csdn.net/s3387224/article/details/103282884

版权

RL 专栏收录该内容

18 篇文章

订阅专栏

奖励

1.稀疏奖励问题

2.奖励模式化问题

3.奖励不能太过于全局化

4.记住一些常用的奖励设置方式

5，逆向强化学习自动涉及回报函数

6.避免奖励异常问题（贪婪：来回踱步，胆怯：不敢走，主线奖励太小，鲁莽：惩罚不够）

7.采用reward shaping（加入势能项）

首先确定主线奖励，但只定义主线奖励的往往都是属于稀疏回报问题，太难去获得正样本，所以需要辅助reward

主线概率难获得，就要将原始目标分成一系列子目标，也就是常常说的credit assignment，但是要避免喧宾夺主

最好的reward涉及是一超多强****,而且除了主线reward应该提供正向奖励以外，其他辅助reward最好都设置为惩罚项

状态

1.采用raw information

2.采用提取好的信息

这里借鉴(1条消息) 深度强化学习落地方法论（5）——状态空间篇_wyjjyn的博客-CSDN博客_强化学习状态空间中的思想

任务分析

主要是对为了实现最终的目标，所需要的知识，可以站在agent的角度进行分析

相关信息筛选

神经网络的作用是将原始状态信息经过层层非线性提炼后转化为与长期收益高度关联的形式，并进一步指导生成action决策，所以要尽量建立起状态与最终奖励的联系，某个状态信息所代表的事件在越短时间内得到反馈，神经网络就越容易学会如何对其进行加工并建立起决策相关性。按照这个反馈时间的长短，我们还可以粗略地将这些相关信息分为直接相关信息和间接相关信息。

直接相关和间接相关组要是由反馈函数定义出来的

直接相关信息

信息与汇报函数直接相关，或者它就是由回报函数中某个值组成的.

直接相关信息不仅对DRL算法学习很友好，在有对口reward奖励/惩罚项的前提下，对算法工作者来说也更容易设计。事实上，DRL的状态空间设计往往和reward设计同时进行，为了达到某个目的需要增加一项奖励/惩罚，并相应增加一个或多个直接相关状态信息，帮助模型识别现象与反馈之间的因果关系，这一设计理念很直观也很有效。
————————————————
版权声明：本文为CSDN博主「wyjjyn」的原创文章，遵循CC 4.0 BY-SA版权协议，转载请附上原文出处链接及本声明。
原文链接：https://blog.csdn.net/s3387224/article/details/103282884

间接相关信息

简介相关信息指的是无法获得直接反馈，往往到达最终位置的时候才能获得相应的反馈

相关信息预处理

提取出一部分信息，替神经网络干一部分活

统一性考虑

将信息拼成向量，将信息与特定场合脱钩，比如能用两个坐标之间的距离就不用这两个坐标

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。