
HIL-SERL为代表的RL机器人
文章平均质量分 96
RL背景之下:提升机器人泛化能力
v_JULY_v
七月在线创始人兼CEO,结构之法算法之道blog之博主
展开
-
RL微调VLA模型——从通过RLAIF微调的GRAPE,到通过在线RL改进的Re-VLA
过去的这两年,工作之余,我狂写大模型与具身的文章,加之具身大火,每周都有各种朋友通过CSDN私我帮忙:要么是做科研想复现,要么是工厂想做自动化生产线的智能升级,要么是想通过机械臂/人形解决各种业务场景问题让我感慨:二零一一年,因为算法,首次有「天下无人不识君」的感觉,过去这两年,因为大模型和具身机器人,再次有了这感觉具身的论文解读过很多之后,便会发现整个具身的技能图谱大概如下所示(建议按照从下至上的顺序看)其中,action head有基于LSTM的基于diffusion model的。原创 2024-12-31 00:02:11 · 7521 阅读 · 0 评论 -
UC伯克利HIL-SERL——结合视觉和人类示教与纠正的RL方法(直接真实环境中RL开训,可组装电脑主板和插拔USB)
机器人强化学习任务可以通过一个来定义,其中是状态观测(例如,结合机器人的本体状态信息的图像)是动作(例如,期望的末端执行器扭转)是初始状态的分布,是依赖于系统动态的未知且可能是随机的转移概率而是奖励函数,编码任务最优策略是最大化奖励的累计期望值的策略,即,其中期望是通过关于初始状态分布、转换概率和策略在实践中,策略通常建模为由神经网络参数化的高斯分布为了实现机器人任务的强化学习算法,必须仔细选择合适的状态观察空间和动作空间。原创 2024-10-31 17:09:18 · 5447 阅读 · 1 评论 -
伯克利Digit——基于下一个token预测技术预测机器人动作token:从带RL到不带RL的自回归预测
本工作为语言交互的机器人操作策略提供了一个新颖的基于现有开源 VLMs 的框架,使用简单微调就能实现出色的效果。RoboFlamingo 为机器人技术研究者提供了一个强大的开源框架,能够更容易地发挥开源 VLMs 的潜能。工作中丰富的实验结果或许可以为机器人技术的实际应用提供宝贵的经验和数据,有助于未来的研究和技术发展参考文献:第二部分// 待更。原创 2024-01-28 00:00:55 · 6785 阅读 · 0 评论