强化学习的实际应用及思考

本文探讨了强化学习在深度学习热潮后的发展,强调了其在游戏、量化交易、工业控制等领域的潜力。然而,商业化落地面临困难,特别是在线强化学习的仿真环境问题和离线强化学习的数据分布挑战。作者列举了多个应用案例,并展望了强化学习未来在决策通用化和智能化方面的期望。
摘要由CSDN通过智能技术生成

1 强化学习用在哪些领域

在人类世界中,决策无处不在,每天都要决定很多小事,每年也大多有些重要的事情要决策。目前,强化学习在深度学习大热之后,也迎来了一波高峰,深度网络的加持下,决策也变得更加智能,能应对更加复杂的场景。

研究在各行业遍地开花,但是目前强化学习真正能够实现落地的公司少之又少,通常在游戏的场景,才是强化学习的主战场。当然,除了游戏之外,在量化交易、无人机控制、国防、化工、水务、出行、运筹优化、医药等行业都有相关的研究工作,所以强化学习称得上是各行各业都可以使用的技术。但是商业化落地却一直比较艰难。

2 强化学习技术的落地难点

先说视觉行业,很多场景现在是拿到图片数据,进行一些简单的处理和标注,然后就扔到模型训练中,然后就可以得到一个相对还不错的感知模型。但是强化学习呢?这个问题得分成在线强化学习,简单来说就是有仿真环境与算法进行交互,实时训练更新决策模型的方法。此方法需要根据对业务的理解去筛选态势量、设计合适的奖励、还需要有一个逼真可信的仿真环境、以及并行化所需要的算力。仿真环境依赖于外部,很多场景中总会有客户说仿真不真,所以,仿真其实是很难解决的一个问题;除此之外需要优秀的算法人员和专业领域人员打配合,才能做出效果好的决策模型。看到这,也就明白为什么游戏是强化学习的主战场了。

但是现实世界中大部分的决策都不会有仿真环境,这个时候人们自然而然的就想到利用采集到的离线数据得到决策模型。模仿学习是一种方式,常用的算法为行为克隆(BC),也作为一般作为基线的决策算法存在,我的理解是拿到的数据足够好,比如化工场景中,操作员的水平很高,数据都是好的,那么用模仿学习来做会更容易出效果。但是工业控制中,通常采的数据也不会这么理想。另外,你做的决策模型是要给工厂带来实质上的效益的。它可以解决一类情况,具体为之前都是操作员控制的,那么学习到一个可用的决策模型可以来减少人工成本,局限性在于不能对现有的控制效果做提升。

在这种情况下,离线强化学习算法(offline RL),在效果提升上比模仿学习有着天然的优势,通过奖励设计,能通过训练提升模型效果。

现实数据中,绝大部分的数据都是分布比较窄的数据,例如化工中,化学反应工艺员一定会调节某些量让反应尽可能处于平稳的状态,以免引起爆炸。由于采集的数据中夹杂了很多人的操作,一般不会有效果太差的数据,但是这对于算法训练来讲,也就只能在窄分布数据上进行训练了,超出原始数据之外的决策,模型也无能为力。

offline RL主要又分为免模型(model_free)的离线强化学习和基于模型(model_based)的离线强化学习。

免模型(model_free)的离线强化学习是基于离线数据直接训练决策模型,但是得到的决策模型是在当前数据分布下的决策,碰到没见过的数据也不会做决策,但是可以通过奖励设计学到奖励值高的决策动作。一种经典的算法就是保守Q学习,顾名思义就是把在已有的数据分布上,把决策做的保守一些。

基于模型(model_based)的离线强化学习,这也是强化学习的一个主要的方向。这方面的研究可以去学习南京大学lamda课题组的一些论文(网址:https://www.lamda.nju.edu.cn/)。(ps.为什么基于模型的离线强化学习(MBRL)这么在意数据分布的宽窄?主要原因是因为MBRL首先要训练一个环境模型,之后才利用环境模型去训练决策模型,环境模型可以理解为“仿真”或者“机理模型”。你数据太窄,那么这个环境模型学的就假,决策也就不准。)

3 应用案例

目前,强化学习的落地应用还是有很多的。下面我以在线强化学习和离线强化学习分别来列几个应用。为什么要区分这两大类?因为在线强化学习可以解决有仿真环境的一类问题,这个应用的现在也比较成熟,以围棋、游戏、掼蛋等等,取得的效果都及其好;离线强化学习解决没有仿真环境的情况,现实世界中大部分的决策问题都没有仿真,所以这个方法解决现实决策问题会更常用,在决策领域,可以说此方法是基于数据驱动的决策方法。

3.1 在线强化学习

3.1.1 案例1:控制核聚变

DeepMind 和瑞士洛桑联邦理工学院 EPFL合作的一个的项目:用强化学习控制核聚变反应堆内过热的等离子体,如今它已宣告成功。

DeepMind 提出的模型架构如下图所示,该方法具有三个阶段:

第一阶段:设计者为实验指定目标,可能伴随着随时间变化的控制目标;

第二阶段:深度 RL 算法与托卡马克模拟器交互,以找到接近最优的控制策略来满足指定目标;

第三阶段:以神经网络表示的控制策略直接在托卡马克硬件上实时运行(零样本)。

(附:这个案例是2022年强化学习业界发表在nature上的很重要的一个工作,说明强化学习可以在这种高危场景上实现落地。给化工相关的各种高危场景打了一个样板,只要你机理模型足够可信,强化学习就能够帮助你实现控制。)

3.1.2 案例2:阿尔法围棋(AlphaGo)

阿尔法围棋(AlphaGo)是于2014年开始由Google DeepMind开发的人工智能围棋软件。它曾入选2016年度中国媒体十大新词,并被围棋界公认其棋力已超过人类职业围棋顶尖水平。

专业术语上来说,AlphaGo的做法是使用了蒙特卡洛树搜索与两个深度神经网络相结合的方法,其中一个是以估值网络来评估大量的选点,而以走棋网络来选择落子。在这种设计下,计算机可以结合树状图的长远推断,又可像人类的大脑一样自发学习进行直觉训练,以提高下棋实力。

2021年12月14日,AlphaGo入选由中国工程院院刊《工程》(Engineering)组织评选的“2021全球十大工程成就”。

3.1.3 案例3:王者荣耀觉悟AI

打过王者荣耀的应该都体会过觉悟的厉害,除了觉悟之外,还有太多的游戏决策AI,都做的不错,相关的公司有启元世界、网易、腾讯等。

3.2 离线强化学习

推荐系统优化:离线强化学习可以用于改进推荐系统。通过分析用户历史行为数据,可以训练一个代理模型,该模型可以根据用户的兴趣和偏好来推荐产品或内容,而无需实时与用户进行交互。

交通流量优化:离线强化学习可以帮助优化城市交通流量。通过分析历史的交通数据,可以训练一个模型,该模型可以学习在不同时间和位置采取何种交通管理策略来最大程度地减少拥堵,并提高交通效率。

广告投放:离线强化学习可以用于优化在线广告投放策略。通过分析用户点击和转化的历史数据,可以训练一个模型,该模型可以预测哪些广告在不同的上下文环境下最有可能引起用户的兴趣,并最大化广告的转化率。

金融投资:离线强化学习可以用于优化金融投资策略。通过分析历史的市场数据和交易记录,可以训练一个模型,该模型可以预测不同投资策略的潜在回报和风险,并自动调整投资组合以最大化收益或降低风险。

工业控制:在工业控制场景中,我们的目标是控制一些关键机组的运行参数,这种情况下基于在线的强化学习虽然是可行的,但是可能需要大量的交互才能学到,其中就可能包含危险的操作,威胁到工业生产的安全,这就非常适合离线的强化学习。

(附:离线强化学习能够在更多场景上适用,尤其适用于用户只能提供历史数据的应用问题。离线强化学习的发展极大的拓宽了强化学习可以解决的决策问题的范围。)

4 展望

现阶段,强化学习在应用上还是有很多问题,比如在线强化学习中的泛化性、仿真不真、数据采集效率低等问题,离线强化学习中分布偏移、数据分布窄等。在学术界的研究下这些问题得到不断解决,但是还存在很多问题亟待解决。

感知类视觉有视觉大模型,语言类有chatgpt等语言类通用大模型,期待未来,决策类算法也有一个突破性的进展,让决策更加通用化和智能化,让数据发挥其最大的价值。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值