对比RL
文章平均质量分 93
收到求救信号
这个作者很懒,什么都没留下…
展开
-
Representation+Offline: Contrastive Representation for Data Filtering in Cross-Domain.....
利用对比学习进行状态动作表征,基于表征筛选出合适的样本实现cross-domain】、ICML 2024。原创 2024-11-05 10:37:57 · 253 阅读 · 0 评论 -
Contrastive RL:Stabilizing Contrastive RL: Techniques for Robotic Goal Reaching from Offline Data
对比学习结合 goal-conditioned offline 视觉强化学习实现自监督学习。表示从初始状态执行策略,经过t步到达的状态概率密度。, 通过两个表征函数的内积估量当前状态动作与未来状态的关联程度。策略的优化则是在offline设定下最大化critic。上述公式在offf-policy下可以重写成TD形式[],通过对比表示学习完成述目标。采用NCE Binary loss优化价值函数。策略优化的目标便是最大化状态占有度量期望值。对比强化学习目标便是区分平均未来状态。原创 2024-03-18 10:47:53 · 577 阅读 · 0 评论