算法学习(十)——强化学习中的奖励设置(不完整)

本文探讨强化学习中奖励函数的设计原则,包括避免过于详细的指导、防止因惩罚导致的搜索不足问题、渐进型与事件型奖励的区别及应用挑战,并提及batchsize大小对奖励函数的影响。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

强化学习中奖励函数的设置非常复杂,这里只是总结一下我的理解。

1.收益信号只能用来传达什么是你想要实现的目标,而不是如何实现現这个目标。所以不应该把奖励设置的过于细致。

2.使用惩罚项可能导致智能体一动不动,因为不动就不会有惩罚。所以有惩罚项的训练过程可能存在搜索不足的问题。

3.渐进型的奖励容易实现,但是很容易违背第一条原则,而事件型的奖励符合第一条原则,但是效果一般很差,比如要到达某一个点,但是只在目标点给奖励,这样训练的智能体寻路效果一般都不好。

4.据说如果batchsize如果为2^12,那么奖励函数就变得不重要了??

 

 

 

 

 

参考文章:

https://zhuanlan.zhihu.com/p/170523750

 

评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值