具身智能,通俗来说,是指研究在环境中具有实体的智能体(如现实或仿真环境下的机器人,能够直接与环境进行物理交互)如何通过与环境的交互来取得认知能力,学习并掌握新技能新知识的一个人工智能的子领域。
主流具身智能训练方法面临的挑战
在深度学习范式下,具身智能的研究主要集中在模仿学习(Imitation Learning)和强化学习 (Reinforcement Learning, RL) 两大块。模仿学习通过采集特定任务的轨迹数据集并用深度神经网络来拟合状态(state)或观测(observation,如第一视角的图像) 的时间序列到动作 (action) 的映射来实现技能的学习,一般来说数据采集成本较高。强化学习则是通过让智能体与环境直接交互,在交互的过程中优化预先定义好的与特定任务相关的奖励函数 (reward function) 来学习新技能,一般来说设计奖励函数需要反复迭代,且强化学习的样本效率 (sample-efficiency) 相比于模仿学习来说会低得多。
早期的具身智能研究发现要使得智能体学到的策略 (policy) 泛化到即便与训练数据非常相似的任务也是一件异常困难的事情,比如在“把物体从桌子中间推到右上角”这个训练集上得到的策略竟然没有办法直接用于解决“把物体从桌子中间推到右下角”这个任务,直觉上来说其背后的原因是桌子的右上角和右下角在图像层面上并不相同,而神经网络并没有数据来学习到这两者在“更加抽