三分钟简易入门“强化学习 (Reinforcement Learning)”

最新推荐文章于 2024-08-11 18:21:52 发布

Shannon1234

最新推荐文章于 2024-08-11 18:21:52 发布

阅读量1.6k

点赞数 3

文章标签：机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_36573015/article/details/106732532

版权

本文包括以下内容：

概述
详介
总结

一、概述

强化学习（Reinforcement Learning，RL）是机器学习的三个大类（有监督学习、无监督学习和强化学习）之一，其基本思想是通过最大化智能体(agent)从环境中获得的累计奖赏值，以学习到完成目标的最优策略，因此RL方法更加侧重于学习解决问题的策略[1]。简单地说，强化学习就是环境状态到行为映射的学习技术，他把这种从环境到行为的映射关系当作黑箱，不具体地探索黑箱内部构造，而是通过行为的正确程度，不断地纠正实施行为的策略。因而强化学习适用于高度非线性的复杂系统，而不用解析系统方程。

二、详介

在这里插入图片描述
一个强化学习算法包括以上几个内容：智能体、智能体发出的行为、这一行为带来的反馈及奖励值、环境。

本人是做智能驾驶的，以汽车为例，智能体就是智能车的智能芯片中的软件系统，行为就是汽车的节气门开度、制动踏板开度和转向盘转角等，奖励值就是汽车驾驶行为正确与否的衡量，环境就是驾驶环境。

现实工程问题多数都是动态的，强化学习可以不断地根据行为的奖励值进行调整策略。其实，所谓的学习，也就是指系统性调整系统参数以收敛到最优策略的过程。

下面逐一介绍算法中涉及的组成内容：

1、环境

在RL中，环境就是除了智能体之外的全部元素，这也包括系统动态特性，这不同于传统的控制算法。

智能体在环境中遍历行为，根据行为的奖励值，对行为进行评估，从而不断地收敛到最佳策略。当然，如果对RL外加干预，比如避免智能体探索一些明显没有必要的行为，可以一定程度上提高收敛速度。

在实际应用中，环境可以是真实环境（用真实的物理硬件进行学习）也可以是仿真环境（用仿真软件搭建）。

2、行为及其奖励

奖励一般通过奖励函数的方式生成，让算法知道什么方向是收敛的方向。

比如，在10m的直道上，使智能汽车依据当前环境直走1m，就可以给予奖励值为+1。当然实际应用比这复杂多，对于一个机器，让他知道这是直道，不许随便转动方向盘还是需要很难的。

具体设置时，设计者还要考虑，使算法更注重短期利益还是长期利益，这里学问比较多，感兴趣的可以查找一下相关论文。

当你把所有行为的奖励值都确定以后，你的策略其实也就明了了。

3、策略

其实策略的获得与上述奖励值的获得是密不可分的。当智能体发现一个行为获得低的奖励值时，自然就会增加此状态下采取这一行为的概率，久而久之，智能体的策略也就收敛于最优。具体的制定策略方法有基于价值函数的学习和策略梯度法和执行器-评价器方法。

三、总结

强化学习是受到生物能够有效适应环境的启发,以试错的机制与环境进行交互,通过最大化累积奖赏的方式来学习到最优策略。[2] RL在与深度学习结合后，更是完成了AlphaGo击败李世石的壮举。然而这一算法的缺点也很明显，即不可解释。训练完成后的模型无法人工调整参数，如果应用情况不好，只能重新训练。基于这一核心弊端，强化学习开始逐渐走向局部应用，即只在某一复杂环节应用强化学习，但这也并不能避免其不可解释的缺点。

以上简单介绍了RL，欢迎批评，感谢点赞！

参考文献：
[1]刘全,翟建伟,章宗长, 等.深度强化学习综述[J].计算机学报,2018,41(1):1-27. DOI:10.11897/SP.J.1016.2018.00001.

[2]赵冬斌,邵坤,朱圆恒,李栋,陈亚冉,王海涛,刘德荣,周彤,王成红.深度强化学习综述：兼论计算机围棋的发展[J].控制理论与应用,2016,33(6):701-717.

关注

3
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。