这一期我们来分享一份干货,这是一篇讲解移动机器人面对陌生环境如何去探索的论文。移动机器人在面对路无地图陌生环境时的探索行为,一直以来都是一个比较难解决的问题,这个议题要求机器人在陌生环境中自行寻路寻找目标对象。强化学习(RL)近年来成为解决这一难题的突破口,而这个实验则使用了深度强化学习(DRL)技术,这种技术比普通强化学习要更加智能。通过实验,研究人员发现DRL中的内在动机因素是解决难题的关键。关于RL与DRL,YESLAB公会将有专门的课程来进行讲解。
移动机器人
在移动机器人开发中,现在比较流行的做法就是将导航策略的配置空间与具体运动空间(包含坐标、位移、方向等数据)映射起来,让机器人AI学习并理解“什么样的地方应该怎样到达”。而目前仍被大量使用的传统技术称为SLAM,该技术适用于给定地图的前提下完成物体定位与路径规划。所以使用强化学习(RL)进行机器人导航,可以理解为一种动态学习任务,理论上能够根据即时数据与少量的历史数据,评估下一个决策点的行为。这种学习方法跟人类的探索性尝试行为是类似的,它可能会让机器人走很多错误的路,但最终会产生更好的效果,就如同我们人类一样,不经历风雨,怎能见彩虹。
通常DRL数据来源:目标导航策略,单独RL从导航策略中学习到的可用特征,一些辅助任务等。
实验环境
本文中的实验首先要求机器人对需要探索的环境是完全陌生的,但对所寻找的物体是熟悉的,为了减少让机器人认识指定物体所花费的时间和避免误认物体导致实验失败,寻找物体这个子任务需要基于简单可实现的原则,例如使用可见光来识别物体,或干脆使用WIFI信号,场景设计上也需要注意避免设计过长的走廊或者视线死角增加额外的难度。
总结来讲本文中的实验环境中包含以下前提条件:
※ 激光识别
※ 恰当的机器人前进速度
※ 合适的目标位置
※ 使用异步DRL
※ 策略网络输出
AI会对自己所做行为带来影响进行评估,评估结果用来衡量在全新状态下的决策,这样的学习模型称为“内在动机模型(ICM)”。ICM应用在每个单独的RL过程,其评估结果会计算在奖励机制中,也可以理解为,产生的误差会参与到奖励中来。例如AI选择了一个会在下一步撞墙的策略,这时候奖励值应该为负(惩罚)。基本的RL算法会记录在这个状态(state)下的奖励值(reward),这样就可以判断这样的决策是否正确、适用于怎样的场景。每个DRL需要完成的任务称为一个子任务,DRL通过管理不同的RL智能体进程来完成不同的子任务,例如论文中就谈及了研究团队使用一个RL智能体进程来学习已经生成的导航路线中是否存在过长的走廊和视线死角。
基本概念与算法详解
目标:让机器人能到达目标g,但不会碰到任何障碍。