自定义博客皮肤VIP专享

*博客头图：

点击选择上传的图片

格式为PNG、JPG，宽度*高度大于1920*100像素，不超过2MB，主视觉建议放在右侧，请参照线上博客头图

请上传大于1920*100像素的图片！

博客底图：

点击选择上传的图片

图片格式为PNG、JPG，不超过1MB，可上下左右平铺至整个背景

栏目图：

点击选择上传的图片

图片格式为PNG、JPG，图片宽度*高度为300*38像素，不超过0.5MB

主标题颜色：

RGB颜色，例如：#AFAFAF

Hover：

RGB颜色，例如：#AFAFAF

副标题颜色：

RGB颜色，例如：#AFAFAF

预览取消提交

自定义博客皮肤

-+

上一步保存

wdnmdwsmsa的博客

收到求救信号 CSDN认证博客专家 CSDN认证企业博客

码龄5年

92: 原创

12万+: 周排名

1万+: 总排名

8万+: 访问

: 等级

2537: 积分

1168: 粉丝

1554: 获赞

12: 评论

1643: 收藏

私信

关注

热门文章

分类专栏

强化学习 84篇
无监督RL 8篇
Model-based 12篇
离线强化学习 36篇
Model-free 15篇
O2O RL 20篇
模仿学习 12篇
Transformer 9篇
Preference 1篇
LfO 1篇
Theory RL
ReplayBuffer 1篇
推荐系统 1篇
半监督 1篇
对比RL 1篇
Pretrain 1篇
Sim2Real 1篇
其他
Zotero 1篇
Jetson TX2 2篇
Leetcode 2篇
python语法学习 3篇
opencv 1篇

最新评论

无监督RL：PAE: Reinforcement Learning from External Knowledge for Efficient Exploration
すもも141: 这个工作有开源吗
Sim2Real:When to Trust Your Simulator: Dynamics-Aware Hybrid Offline-and-Online RL
CSDN-Ada助手: 恭喜作者第20篇博客的发布！标题“Sim2Real:When to Trust Your Simulator: Dynamics-Aware Hybrid Offline-and-Online RL”听起来非常有深度，对于模拟器和实际环境的关系和信任问题进行了深入探讨。希望作者在未来的创作中可以继续深入探讨这一主题，或者结合实际案例进行分析，让读者更好地理解其中的原理和应用。期待作者的下一篇文章！
O2O:Actor-Critic Alignment for Offline-to-Online Reinforcement Learning
CSDN-Ada助手: 恭喜您发布了第18篇博客！看了您的文章之后，对O2O的Actor-Critic Alignment for Offline-to-Online Reinforcement Learning有了更深入的理解。不过，我觉得如果您能够进一步深入探讨该领域的实际应用案例，或者结合具体的算法进行案例分析，将会使您的博客内容更加丰富和有趣。希望您在接下来的创作中能够继续保持努力，期待您更多的精彩文章！
O2O:Offline–Online Actor–Critic
CSDN-Ada助手: 恭喜您发布了第19篇博客“O2O:Offline–Online Actor–Critic”！您的持续创作精神令人钦佩。建议您在下一步的创作中，可以深入探讨该主题的实际应用场景，或者尝试与其他领域进行交叉探索，以拓展您的思路和视野。期待看到更多精彩的内容，加油！
O2O：A Perspective of Q-value Estimation on Offline-to-Online Reinforcement Learning
CSDN-Ada助手: 恭喜作者第15篇博客的发布！从标题来看，这篇博客似乎涉及到了离线到在线强化学习中的Q值估计，听起来非常有深度和挑战性。希望作者能够继续分享关于这个领域的见解和研究成果，或许可以考虑深入探讨具体的案例分析或者对未来发展方向的思考。期待作者的下一篇作品！

最新文章

2024

Pretrain

关注

文章平均质量分 94

关注数：文章数：1 文章阅读量：703 文章收藏量：26

作者: 收到求救信号

这个作者很懒，什么都没留下…

展开

Pretrain: TAIL: Task-specific Adapters for Imitation Learning with Large Pretrained Models

TAIL使用预训练的CLIP实现语言指令编码(instruction encoder)以及图像数据的空间编码(spatial encoder),并通过一个input fusion model将二者融合，实更好的指令跟随能力。完成上述步骤，TAIL提出使用一个额外的小参数量的、可被优化的插件adapter，联合参数冻结的预训练模型进行微调。结构如图Fig1(b)的最下方的结构。（2）adapter结合预训练的参数模型，采用BC损失函数训练优化adapter，此时需要冻结预训练模型的参数。

原创 2024-03-12 14:48:11 · 703 阅读 · 0 评论