![](https://img-blog.csdnimg.cn/060ba98c261c4e0e8665ad7a7f683dab.jpeg?x-oss-process=image/resize,m_fixed,h_224,w_224)
强化学习之---基于势能的塑形奖励
文章平均质量分 94
该部分主要分享一些基于势能的塑形奖励函数的论文和体会
难受啊!马飞...
机器学习已经变成实验科学了
展开
-
Dynamic Potential-Based Reward Shaping将势能塑形奖励函数拓展为F(s,t,s‘,t‘)
基于势能的奖励塑形可以显著降低学习最优策略所需的时间,并且在多agent系统中,可以显著提高最终联合策略的性能。已经证明,它不会改变一个agent单独学习的最优策略或多个agent一起学习的纳什均衡。然而,现有证明的一个局限性是假设状态的势能在学习期间不会动态变化。这种假设经常被打破,特别是如果奖励塑形函数是自动生成的。在本文中,我们证明并演示了一种扩展基于势能的奖励塑形的方法,以允许动态塑形,并在单agent情况下保持策略不变性,在多agent情况下维持一致的纳什均衡。原创 2022-11-24 02:20:04 · 1204 阅读 · 0 评论 -
Principled Methods for Advising Reinforcement Learning AgentsF(s,a,t,s‘,a‘,t‘)
强化学习中的一个重要问题是如何以有原则的方式整合专家知识,尤其是当我们扩展到现实世界的任务时。在本文中,我们提出了一种在不改变最优策略的情况下将任意建议纳入强化学习agent的奖励结构的方法。 该方法扩展了 Ng 等人提出的基于势能的塑形方法。 (1999) 到基于状态和动作的塑形函数的案例。 这允许使用更具体的信息来指导agent——选择哪个动作——而不需要agent仅从状态的奖励中发现这一点。 我们开发了两种定性不同的方法来将势能函数转换为对agent的建议。我们还提供了根据势能函数的属性在这些建议算法原创 2022-11-22 22:40:45 · 436 阅读 · 0 评论 -
Expressing Arbitrary Reward Functions as Potential-Based Advice将任意奖励函数表示为基于势能的建议
有效地吸纳外部建议是强化学习中的一个重要问题,尤其是在它进入现实世界的时候。基于势能的奖励塑形是在保证策略不变性的前提下,为agent提供特定形式的额外奖励的一种方式。本文提出了一种新的方法,通过隐含地将任意一个具有相同保证的奖励函数转化为动态建议势的特定形式,使其保持为一个同时学习的辅助值函数。我们证明了这种方式提供的建议捕获了期望中的输入奖励函数,并通过实证证明了其有效性。原创 2022-11-22 15:15:32 · 376 阅读 · 0 评论 -
Potential-based shaping and Q-value initialization are equivalent(静态势能塑形相当于初始化agent的Q-table)
事实证明,塑形是提高强化学习表现的一种有力但不稳定的手段。Ng,Harada 和 Russell (1999)提出了一种基于势能的塑形算法,通过增加塑形奖励来保证学习器学会最佳行为。 在这篇文章中,我们证明了这个塑形算法和几个强化学习算法所需的初始化步骤之间的某些相似之处。更具体地说,我们证明了一个基于塑形算法的势能函数的初始 Q 值的强化学习器在整个学习过程中作出的更新与接受基于塑形势能的奖励的学习器相同。我们进一步证明,在一个广泛的策略范畴下,这两个学习器的行为是不可区分的。比较提供了直观的成形算法的原创 2022-11-22 14:22:37 · 301 阅读 · 0 评论 -
Multigrid reinforcement learning with reward shaping
基于势能的奖励塑形已被证明是提高强化学习agent收敛速度的有效方法。 这是一种以原则性方式将背景知识纳入时间差异学习的灵活技术。然而,问题仍然是如何计算用于塑形给予学习agent的奖励的势能。在本文中,我们提出了一种通过状态空间离散化来解决强化学习中这个问题的方法。特别是,我们表明可以在实际强化学习过程中并行在线学习势能函数。 如果为由给定网格确定的状态学习 Q 函数,则可以并行学习具有较低分辨率状态的 V 函数,并用于近似地面学习的势能。 提出了新算法并进行了实验评估。原创 2022-11-21 22:37:15 · 692 阅读 · 0 评论 -
强化学习论文精度(2)Learning to utilize shaping rewards: A new approach of reward shaping
没什么说的,最近重在想着把强化学习三大坑搞明白,只是搞明白啊,不是搞懂三大坑分别是:样本效率奖励函数模型结构第一个样本效率现在搞得迷迷糊糊的了,说懂吧了吧,又说不出所以然,说不懂吧。但是看论文又能知道作者们想表达的意思。下面想在明白,就是得实践出真知了。因此,现在开始搞奖励函数了。其实奖励函数是强化学习里最大的坑。本博客照搬别人的博客。所翻译的论文是这个,大家直接下载。1. 引 言奖赏塑形 (Reward Shaping)是提升强化学习算法学习效率的重要途径之一,其核心思想是用塑形转载 2022-04-09 00:08:06 · 1200 阅读 · 0 评论 -
Useful Policy Invariant Shaping from Arbitrary Advice论文翻译导读分析
Useful Policy Invariant Shaping from Arbitrary Advice原创 2022-11-14 18:49:55 · 345 阅读 · 0 评论 -
Policy invariance under reward transformations- Theory and application to reward shaping基于势能的塑形奖励函数
关于Ng的基于势能的塑型奖励函数的理解和翻译原创 2022-11-19 23:05:38 · 572 阅读 · 1 评论