HER,让“她”明白失败是成功之母 提出缘由 核心思想 怎样实现 事后经验回放 如何选取新的目标做经验回放 单目标RL和多目标RL HER伪代码 DDPG-HER代码 提出缘由 在许多强化学习环境中都存在稀疏奖励的问题,例如机械臂抓取物体,当抓到物体时给予一个正奖励,其余时候为零。再比如由n个硬币组成的环境,每个硬币都有正反两面记为 { 0 , 1 } \{0,1\} { 0,1}