额外函数_强化学习奖励函数塑形简介(The reward shaping of RL)

  1. RL背景

强化学习解决定义在马尔科夫过程(Makov Decision Processing, MDP)下的连续决策问题。 其中经典算法Q-learning使用如下方程更新

值:策略
在状态s下采取行为a后的累计回报数学期望(Cumulated reward).

2. RL面临的挑战: 奖励稀疏性(sparse reward )

大部分任务的state-action空间中,奖励信号都为0. 我们称之为奖励函数的稀疏(sparsity of reward)。 稀疏的奖励函数,导致算法收敛缓慢。 Agent需要和环境多次交互采并学习大量样本才能,收敛到最优解.

b44c6e1dd0e77fea73599b0c16995d76.png

如上图MDP, Agent 从状态

出发到
  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值