强化学习奖励和状态设计

奖励

1.稀疏奖励问题

2.奖励模式化问题

3.奖励不能太过于全局化

4.记住一些常用的奖励设置方式

5,逆向强化学习自动涉及回报函数

6.避免奖励异常问题(贪婪:来回踱步,胆怯:不敢走,主线奖励太小,鲁莽:惩罚不够)

7.采用reward shaping(加入势能项)

首先确定主线奖励,但只定义主线奖励的往往都是属于稀疏回报问题,太难去获得正样本,所以需要辅助reward

主线概率难获得,就要将原始目标分成一系列子目标,也就是常常说的credit assignment,但是要避免喧宾夺主

最好的reward涉及是一超多强****,而且除了主线reward应该提供正向奖励以外,其他辅助reward最好都设置为惩罚项

状态

1.采用raw information

2.采用提取好的信息

这里借鉴(1条消息) 深度强化学习落地方法论(5)——状态空间篇_wyjjyn的博客-CSDN博客_强化学习状态空间中的思想

任务分析

主要是对为了实现最终的目标,所需要的知识,可以站在agent的角度进行分析

相关信息筛选

神经网络的作用是将原始状态信息经过层层非线性提炼后转化为与长期收益高度关联的形式,并进一步指导生成action决策,所以要尽量建立起状态与最终奖励的联系,某个状态信息所代表的事件在越短时间内得到反馈,神经网络就越容易学会如何对其进行加工并建立起决策相关性。按照这个反馈时间的长短,我们还可以粗略地将这些相关信息分为直接相关信息和间接相关信息。

直接相关和间接相关组要是由反馈函数定义出来的

直接相关信息

信息与汇报函数直接相关,或者它就是由回报函数中某个值组成的.

直接相关信息不仅对DRL算法学习很友好,在有对口reward奖励/惩罚项的前提下,对算法工作者来说也更容易设计。事实上,DRL的状态空间设计往往和reward设计同时进行,为了达到某个目的需要增加一项奖励/惩罚,并相应增加一个或多个直接相关状态信息,帮助模型识别现象与反馈之间的因果关系,这一设计理念很直观也很有效。
————————————————
版权声明:本文为CSDN博主「wyjjyn」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。
原文链接:https://blog.csdn.net/s3387224/article/details/103282884

间接相关信息

简介相关信息指的是无法获得直接反馈,往往到达最终位置的时候才能获得相应的反馈

相关信息预处理

提取出一部分信息,替神经网络干一部分活

统一性考虑

将信息拼成向量,将信息与特定场合脱钩,比如能用两个坐标之间的距离就不用这两个坐标

### 关于深度强化学习奖励函数设计的方法与最佳实践 #### 奖励函数的重要性 在深度强化学习领域,奖励函数对于指导智能体行为至关重要。其不仅影响模型的学习效率,还决定了最终策略的质量适用范围[^1]。 #### 设计原则 为了构建有效的奖励机制,在设计过程中应遵循若干基本原则: - **即时反馈 vs 长期规划**:需平衡短期收益与长远利益之间的关系。过早给予高额回报可能导致短视行为;而过分强调未来则可能使训练过程变得不稳定。 - **稀疏性处理**:当环境中可用的信息较少时(即大多数时间里都没有明显正向或负向信号),可以通过引入辅助任务或其他形式的内在动机来增加探索机会[^2]。 - **平滑性可微分性**:考虑到许多现代RL算法依赖梯度下降法更新参数,因此保持奖励值变化相对平稳有助于提高收敛速度并减少震荡现象的发生概率。 #### 实践技巧 具体实施层面有如下建议可供参考: - **基于物理意义定义**:尽可能依据实际应用场景中的量化指标设定奖惩标准,比如电力系统调度案例中采用成本节约量作为评判依据之一[^3]。 - **多维度综合考量**:除了单一数值外还可以考虑加入更多描述状态特征的因素形成复合型评价体系,进而促进更全面的理解与发展方向调整能力。 - **动态适应调节**:允许随时间推移改变某些权重系数或者阈值界限,使得整个框架能够更好地应对不同阶段的需求差异以及外部条件变动带来的挑战。 ```python def reward_function(state, action): """ 计算给定状态下采取特定动作后的即时奖励 参数: state (list): 当前环境的状态表示 action (int): 执行的动作编号 返回: float: 对应该次操作所获得/损失的价值评估得分 """ # 示例逻辑:简单线性组合方式计算总评分 immediate_reward = sum([w * f(s, a) for w, s, a in zip(weights, states_features, actions)]) return max(min(immediate_reward, upper_bound), lower_bound) ```
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值