初探强化学习

初探强化学习

强化学习 (Reinforcement Learning)

又称增强学习等,是机器学习的一种,其模式也是让机器人在“训练”中学到“经验”,以实现给定的任务。但不同于监督学习与非监督学习,在强化学习的框架中,我们更侧重通过机器人与环境的交互来学习。通常在监督学习和非监督学习任务中,机器人往往需要通过给定的训练集,辅之以既定的训练目标(如最小化损失函数),通过给定的学习算法来实现这一目标。然而在强化学习中,机器人则是通过其与环境交互得到的奖励进行学习。这个环境可以是虚拟的,也可以是真实的(自动驾驶汽车在真实道路上收集数据)。

-入门看的资源【百度百科】、【博客】&【博客】、以及练手的小算法程序【博客】。
尝试各种可能,使机器人得到奖励或惩罚,选择最奖励值越多,也就是最鼓励他的方案去执行。

应用

应用在很多领域,其中在无人驾驶领域,主要用作 决策和导航,比如说:对于道路场景上突然出现的人或动物,十字路口的决策、最优的路线、变道、会车等一系列决策行为,利用特定的数据集训练他就像是纸上谈兵,泛用性差,必须让他亲自实验懂得这些决策技巧。
在slam中,也并不是用不到,对于语义物体级slam,它的一个最核心、最关键的数据关联问题可以使用增强学习来代替深度学习,有待研究。

注意

增强学习虽然有很多优势,但每项技术总有不足之处,它需要尝试各种可能,不断地尝试还可能带来反馈的延迟,容易做“事后诸葛”。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值