Contrastive RL:Stabilizing Contrastive RL: Techniques for Robotic Goal Reaching from Offline Data
对比学习结合 goal-conditioned offline 视觉强化学习实现自监督学习。表示从初始状态执行策略,经过t步到达的状态概率密度。, 通过两个表征函数的内积估量当前状态动作与未来状态的关联程度。策略的优化则是在offline设定下最大化critic。上述公式在offf-policy下可以重写成TD形式[],通过对比表示学习完成述目标。采用NCE Binary loss优化价值函数。策略优化的目标便是最大化状态占有度量期望值。对比强化学习目标便是区分平均未来状态。
原创
2024-03-18 10:47:53 ·
539 阅读 ·
0 评论