初探强化学习
强化学习 (Reinforcement Learning)
又称增强学习等,是机器学习的一种,其模式也是让机器人在“训练”中学到“经验”,以实现给定的任务。但不同于监督学习与非监督学习,在强化学习的框架中,我们更侧重通过机器人与环境的交互来学习。通常在监督学习和非监督学习任务中,机器人往往需要通过给定的训练集,辅之以既定的训练目标(如最小化损失函数),通过给定的学习算法来实现这一目标。然而在强化学习中,机器人则是通过其与环境交互得到的奖励进行学习。这个环境可以是虚拟的,也可以是真实的(自动驾驶汽车在真实道路上收集数据)。
-入门看的资源【百度百科】、【博客】&【博客】、以及练手的小算法程序【博客】。
尝试各种可能,使机器人得到奖励或惩罚,选择最奖励值越多,也就是最鼓励他的方案去执行。
应用
应用在很多领域,其中在无人驾驶领域,主要用作 决策和导航,比如说:对于道路场景上突然出现的人或动物,十字路口的决策、最优的路线、变道、会车等一系列决策行为,利用特定的数据集训练他就像是纸上谈兵,泛用性差,必须让他亲自实验懂得这些决策技巧。
在slam中,也并不是用不到,对于语义物体级slam,它的一个最核心、最关键的数据关联问题可以使用增强学习来代替深度学习,有待研究。
注意
增强学习虽然有很多优势,但每项技术总有不足之处,它需要尝试各种可能,不断地尝试还可能带来反馈的延迟,容易做“事后诸葛”。