三分钟简易入门“强化学习 (Reinforcement Learning)”

本文包括以下内容:

  • 概述
  • 详介
  • 总结

一、概述

强化学习(Reinforcement Learning,RL)是机器学习的三个大类(有监督学习、无监督学习和强化学习)之一,其基本思想是通过最大化智能体(agent)从环境中获得的累计奖赏值,以学习到完成目标的最优策略,因此RL方法更加侧重于学习解决问题的策略[1]。简单地说,强化学习就是环境状态到行为映射的学习技术,他把这种从环境到行为的映射关系当作黑箱,不具体地探索黑箱内部构造,而是通过行为的正确程度,不断地纠正实施行为的策略。因而强化学习适用于高度非线性的复杂系统,而不用解析系统方程。

二、详介

在这里插入图片描述
一个强化学习算法包括以上几个内容:智能体、智能体发出的行为、这一行为带来的反馈及奖励值、环境。

本人是做智能驾驶的,以汽车为例,智能体就是智能车的智能芯片中的软件系统,行为就是汽车的节气门开度、制动踏板开度和转向盘转角等,奖励值就是汽车驾驶行为正确与否的衡量,环境就是驾驶环境。

现实工程问题多数都是动态的,强化学习可以不断地根据行为的奖励值进行调整策略。其实,所谓的学习,也就是指系统性调整系统参数以收敛到最优策略的过程。

下面逐一介绍算法中涉及的组成内容:

1、环境

在RL中,环境就是除了智能体之外的全部元素,这也包括系统动态特性,这不同于传统的控制算法。

智能体在环境中遍历行为,根据行为的奖励值,对行为进行评估,从而不断地收敛到最佳策略。当然,如果对RL外加干预,比如避免智能体探索一些明显没有必要的行为,可以一定程度上提高收敛速度。

在实际应用中,环境可以是真实环境(用真实的物理硬件进行学习)也可以是仿真环境(用仿真软件搭建)。

2、行为及其奖励

奖励一般通过奖励函数的方式生成,让算法知道什么方向是收敛的方向。

比如,在10m的直道上,使智能汽车依据当前环境直走1m,就可以给予奖励值为+1。当然实际应用比这复杂多,对于一个机器,让他知道这是直道,不许随便转动方向盘还是需要很难的。

具体设置时,设计者还要考虑,使算法更注重短期利益还是长期利益,这里学问比较多,感兴趣的可以查找一下相关论文。

当你把所有行为的奖励值都确定以后,你的策略其实也就明了了。

3、策略

其实策略的获得与上述奖励值的获得是密不可分的。当智能体发现一个行为获得低的奖励值时,自然就会增加此状态下采取这一行为的概率,久而久之,智能体的策略也就收敛于最优。具体的制定策略方法有基于价值函数的学习和策略梯度法和执行器-评价器方法。

三、总结

强化学习是受到生物能够有效适应环境的启发,以试错的机制与环境进行交互,通过最大化累积奖赏的方式来学习到最优策略。[2] RL在与深度学习结合后,更是完成了AlphaGo击败李世石的壮举。然而这一算法的缺点也很明显,即不可解释。训练完成后的模型无法人工调整参数,如果应用情况不好,只能重新训练。基于这一核心弊端,强化学习开始逐渐走向局部应用,即只在某一复杂环节应用强化学习,但这也并不能避免其不可解释的缺点。

以上简单介绍了RL,欢迎批评,感谢点赞!

参考文献:
[1]刘全,翟建伟,章宗长, 等.深度强化学习综述[J].计算机学报,2018,41(1):1-27. DOI:10.11897/SP.J.1016.2018.00001.

[2]赵冬斌,邵坤,朱圆恒,李栋,陈亚冉,王海涛,刘德荣,周彤,王成红.深度强化学习综述:兼论计算机围棋的发展[J].控制理论与应用,2016,33(6):701-717.

  • 3
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值