无监督RL
文章平均质量分 94
收到求救信号
这个作者很懒,什么都没留下…
展开
-
Predictable MDP Abstraction for Unsupervised Model-Based RL
ICML 2023。原创 2024-05-24 22:50:13 · 798 阅读 · 0 评论 -
Offline RL : Efficient Planning in a Compact Latent Action Space
对于高维复杂环境,通过encoder到低维度隐空间进行推理学习好的特征表示,在decoder生成是一个好的框架。对于下游任务,就可以直接采用学习好的特征以及decoder实现zero-shot。这是一个不错的思路。后续ICLR2024有个工作使用在隐空间进行Diffusion:《Efficient Planning with Latent Diffusion》原创 2024-04-11 21:14:05 · 871 阅读 · 0 评论 -
H-GAP: Humanoid Control with a Generalist Planner
ICLR 2024。原创 2024-04-09 20:52:04 · 679 阅读 · 0 评论 -
CrossLoco: Human Motion Driven Control of Legged Robots via Guided Unsupervised Reinforcement...
Human motion driven control (HMDC) 是一种控制策略,它利用人类动作或行为模式来指导和优化自动控制系统的性能。这种控制方法通常应用于机器人技术、虚拟现实、人机交互以及其他需要模拟或响应人类行为的领域。HMDC 的核心思想是通过分析和理解人类的运动模式,提取关键的动作特征,并将这些特征转化为控制信号,以此来驱动控制系统的响应。这种方法的优势在于能够模拟人类的自然运动和行为,使得机器人或其他自动系统的动作更加流畅、自然和符合人类的直觉。原创 2024-04-08 22:02:59 · 886 阅读 · 0 评论 -
无监督RL:PAE: Reinforcement Learning from External Knowledge for Efficient Exploration
ICLR 2024。原创 2024-04-08 21:08:50 · 974 阅读 · 1 评论 -
Unsupervised RL:METRA: Scalable Unsupervised RL with Metric-Aware Abstraction
采用时间距离度量(状态间转换的最小交互步数)的原因是其对状态表征是不变的,因此该度量适用于pixel-based的任务。因此,通过最大化Z空间中的覆盖,可以获得近似覆盖整个状态空间的各种行为,便可实现扩展到高维、复杂的环境。上述目标是可计算的,可以设置f为1阶李普希兹连续的函数,通过梯度下降优化,而z-condition的策略。这样潜在空间应该将其(有限的)维度分配给原始状态空间中流形最大限度“展开”的状态。考虑时间距离上的状态抽象,可以方便的实现Zero-shot goal-reaching。原创 2024-03-12 22:39:33 · 737 阅读 · 0 评论