Representation+Offline: Contrastive Representation for Data Filtering in Cross-Domain.....

利用对比学习进行状态动作表征,基于表征筛选出合适的样本实现cross-domain
paper
code
ICML 2024

Intro

Source Domain 的数据与Target Domian可能存在dynamic mismatch使得基于offline RL的域自适应困难。基于域分类的方法往往需要域之间可转移的假设。本文提出一种基于对比学习的表征方式估算域之间的gap,并将表征结果看作一种数据筛选,选出合适的数据用于offline RL的策略学习。文中也证明这种表征方式可以恢复两个领域中dynamic 函数的互信息差距, 并且这种基于域间互信息。

Method

在这里插入图片描述
对比学习部分采用NCELoss。正样本对 ( s , a , s B ′ (s,a,s'_{B} (s,a,sB来自target,负样本对则是由target采样的 ( s , a ) (s,a) (s,a)与source中采样的 S A ′ S'_A SA构成。
在这里插入图片描述
在这里插入图片描述
训练完成后便是基于 ϕ \phi ϕ ψ \psi ψ对source domain 的数据进行筛选,联合target的数据实现价值函数的学习
在这里插入图片描述
其中 ω \omega ω为指示函数,当 h h h大于某个阈值时为1。价值函数再结合offline RL的方法实现策略学习(IQL)

一点理论

利用源域与目标域之间的互信息 I ( [ S , A ] , S ′ ) I([S,A],S') I([S,A]S)的gap,推导出其与对比学习NCE之间的关系
在这里插入图片描述
当有足够的负样本,这种Gap等价于 I N C E I_{NCE} INCE,那利用对比学习中的表征函数筛选出的样本,也就具有很好信任度。
在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值