强化学习时代已经来临!

2020年发生了很多“活久见”的事情。这里不讨论这些黑天鹅事件,而是随想一下强化学习的落地。

AlphaGo的故事,关心AI的人都知道。AlphaGo助推了这轮AI热,也让强化学习从象牙塔走向大众的视野,让更多人开始关注强化学习。经过三四年,研究方面蓬勃发展,游戏方面好消息不断,Nature、Science上强化学习方面的论文,都快看不过来了,更不用说众多AI/CS顶会了。而在实际场景落地方面,微软、谷歌、滴滴、脸书等大公司有不俗表现。不过,强化学习落地目前还没有发生“AlphaGo时刻”,也没有像深度学习在图像处理、自然语言处理等领域中那样的大规模应用。应该说,强化学习的落地,仍然在机遇与挑战并存的阶段;但就像标题所表达的,如果有足够的人才、计算力、经费等资源,强化学习的落地会更广更快。

最近强化学习落地方面的发展,或许已经表明,强化学习时代已经来临。不过,强化学习的落地,或许不像深度学习那样轰轰烈烈,或许会像春夜喜雨,随风潜入夜,润物细无声。

2012年深度学习的图像处理,2016年深度强化学习的AlphaGo,可能接近黑天鹅;而强化学习的落地,可能更接近灰犀牛 --- 虽然慢,但是块头大。

下面,首先介绍微软的Personalizer服务和滴滴网约车派单,以及谷歌等机构的一些强化学习落地方面的进展。然后简要讨论为什么强化学习没有广泛商业应用,为什么强化学习没有深度学习那么火。

应该说,在学术界,强化学习已经非常广泛地应用,论文已经读不过来了。参考强化学习应用场景。

参考强化学习应用简述。

(链接:https://zhuanlan.zhihu.com/p/279642231)

微软已经推出强化学习应用的服务Personalizer, 是 Azure AI platform 的一部分。已经开始在 Windows, Edge browser, Xbox等微软的产品和服务中使用强化学习,比如,Azure Cognitive Services开发人员在app和⽹页中使用,⼯程师利用Autonomous systems调优制造过程,通过 Azure Machine Learning 预览强化学习云服务,利用Metrics Advisor, 通过⽤户数据,帮助检测传感器、⽣产过程、商业指标中的细微异常,也应用于推荐系统、适应疫情后⽤户⾏为的变化、视频抖动缓冲器优化、 重启或补救虚拟机等。微软的强化学习服务也在墨西哥电子商务推荐服务、俄罗斯银⾏装卸硬币、与⼈合作的游戏等领域应用。微软(亚洲研究院)最近把强化学习应用于物流领域。

微软的Personalizer获得了2019 Inaugural ACM SIGAI Industry Award for Excellence in Artificial Intelligence, 以及Winners of the Strata Data Awards 2019.

微软在arXiv上的一篇论文讨论了Personalizer背后的Decision Service, 讨论了多臂老虎机bandits, off-policy evaluation等核心算法,以及软件实现和系统部署中遇到的问题及解决方案。是目前强化学习落地方面少有的论文。Making contextual decisions with low technical debt.

多臂老虎机可以有很广泛的应用。值得关注。参考 强化学习落地:推荐系统

下面列一些相关资源。

Personalizer | Microsoft Azure

ICML 2019 Real World Reinforcement Learning Workshop

Real World Reinforcement Learning - John Langford

Lessons from Contextual Bandit Learning in a Customer Support Bot

With reinforcement learning, Microsoft brings a new class of AI solutions to customers - The AI Blog

滴滴在网约车派单管理方面取得了长足的发展。

为几百个城市每天千万级的订单数研发网约车派单系统,面临诸多挑战,比如动态随机的供需关系、系统响应时间、可靠性、多个商业⽬标,考虑以司机为中心的目标,最⼤化平台上司机的总收⼊,以及以乘客为中⼼的⽬标,最⼩化平均接乘客的距离,同时需要监视响应率、完成率等市场效率指标。产品落地需要考虑计算效率、系统可靠性、满⾜不断变化的商业需求等需求和约束。

在前面几年,滴滴在组合优化、半⻢尔科夫决策过程、表格式时差学习、深度强化学习、迁移学习等方面研发网约车派单的解决方案。把派单问题看成静态的组合优化问题,与旅行商问题(traveling salesman problem, TSP), 车辆路径问题(vehicle routing problem, VRP),接送问题(pickup-and-delivery problem),以及拨号叫车服务(dial-a-ride problem, DARP)等经典的组合优化问题相关。组合优化只考虑短期效果,不过,因为已经有很多研究成果,有快速的算法实现。同时,组合优化方法可以灵活地处理商业要求的约束条件。当前的派单决策会影响司机将来的时空分布。马尔科夫决策过程(Markov decision process, MDP)则可以自然地处理这样的时间依赖关系。网约车每单对应一系列时间相关的决策。这样,半马尔科夫决策过程(semi-MDP)则可以更好地对派单问题建模,从而引入分层强化学习。虽然表格式的时差学习可以取得比组合优化更好的性能指标,但是,有以下几个缺点:1)维度灾难,当状态空间增大时,表格变得过大而无法处理;2)训练数据稀疏性,导致无法泛化到没有访问过的状态;3)无法实现迁移学习,把在一个城市学习到的知识与另一个城市分享。深度强化学习则可以处理上面讨论的问题。最近上线的基于深度强化学习、半⻢尔科夫决策过程、迁移学习的系统,在司机总收入、订单响应时间、订单完成率等指标上,比产品基线系统提高了0.5%到2%。

滴滴的网约车派单工作获得了INFORMS 2019 Wagner Prize.

论文:Ride-hailing order dispatching at DiDi via reinforcement learning

讲座:2019 Wagner Prize Winner: Ride-hailing Order Dispatching on DiDi via Reinforcement Learning

Tutorial: Deep Reinforcement Learning with Applications in Transportation

谷歌、脸书、京东、阿里等公司在搜索、广告、电商等方面在产品线中部署基于强化学习的系统。推荐系统,因为一般有大量数据,是强化学习比较容易落地的方向。参考最近更新的文章,这里不再赘述: 强化学习落地:推荐系统。

除了推荐系统,谷歌在神经元网络结构优化,数据增加(data augmentation) 、数据中心制冷控制、以及最近的超高压⽓球在平流层自主导航等强化学习落地方面取得进展。

下面简单列举最近的一些实际场景的项目:发现新药;多专业技能四足机器人;强化学习带着四足机器人翻山越岭,看遍美丽风景;冰壶机器人;游戏测试。等等。(强化学习在新药设计领域可能出现“AlphaGo时刻”。强化学习最近在机器人方面有不少好结果。)

微软的Personalizer和滴滴的网约车派单系统分别获得了计算机科学界和运筹学/管理学界最负盛名的学术组织ACM和INFORMS的褒奖。John Langford, Lihong Li, Tony Qin等研发人员也通过论文、tutorial、workshop、competition,demo等形式分享强化学习落地的最新成果,助力科技进一步向生产力转化。

笔(zong)者(shang)认(suo)为(shu),这是强化学习准备大规模落地的信号!

RL Algorithm and Application Virtual Seminar

RL4RealLife 2020

RL4RealLife 2019

强化学习仍然没有广泛商业应用。一个相关问题是,强化学习没有深度学习那么火。为什么?笔者试图从应用、算法、技术接纳、技术路径、商业模式、软件工程/系统部署、资源、投资、认知等方面讨论一下。其中几个因素也是人工智能/机器学习/深度学习的商业化中遇到的普遍性问题。

从应用角度,在某种程度上,从性能提升幅度看,强化学习还没有爆款应用。深度学习在图像处理上取得了惊人的成绩,然后就迅速在工业界大规模应用。深度学习在语音处理、自然语言处理等方面也取得了比以前好得多的效果,并且迅速商业化。强化学习虽然在围棋、国际象棋、德扑、星际争霸、刀塔、麻将等游戏上取得了世人瞩目的成绩,但这些基本在学术研究范畴,不确定是否有合适的商业模式,把这些成果转化为利润丰厚的(爆款)应用。而在更容易商业化的应用中,目前还没有类似于AlexNet那样大幅度提升性能的结果。不过,像上面讨论的,工业界已经有一些强化学习落地的成功案例。参考强化学习落地:游戏及相关话题;计划近期更新,敬请关注。

从算法层面,强化学习仍然有不少问题,面临不少挑战。强化学习需要大量数据、计算力要求高、泛化性有待提高、算法不一定收敛、不容易训练、实验结果可能不好复制、有些数据因为安全伦理等因素不能轻易收集、缺乏解释性、缺乏安全性等。应该说,深度学习也有类似问题,强化学习可能更严重一些。不过,最近在sample efficiency、off-policy evaulation, offline learning, sim-to-real, interpretable RL, safe RL等方面都有进展。

从对技术的接纳程度看,互联网行业对新技术接受比较快,情况相对好一些。而传统行业,或许仍然在进行数字化、信息化的过程,利用深度学习、机器学习、大数据的智能化可能还没有广泛采用,强化学习的应用可能就更要往后靠了。利用强化学习/人工智能,或许是某些行业“弯道超车”的好机会。

从技术路径看,强化学习/人工智能需要合适的方式与任务结合。对于互联网公司或机器人公司,一般来说,人工智能方面的研发人员主导技术的发展,这样会比较容易考虑像强化学习这样有潜力但商业回报暂时不一定很清晰的技术。而对于交通、物流、能源、制造业等行业,理想情况是专家同时对领域知识和人工智都有深入了解。否则,需要人工智能专家辅助领域专家完成智能化。李开复博士讨论了人工智能落地的AI+/+AI模式。这个观点受此启发。另外,+AI模式引发出一个对各行各业的专业人才、管理人员进行人工智能教育培训的问题,也是强化学习/人工智能在各行各业落地的一个环节。值得思考。

从商业模式的角度,人工智能公司代表了一种新的商业模式,从总利润、规模化、防御性等方面看,是软件公司与软件服务公司的某种组合。人工智能公司,因为对云计算平台的依赖,加上需要不断的人工支持,总利润比较低;因为要处理麻烦的边缘情况,上规模充满挑战;因为人工智能模型的商品化,以为数据是竞争资源并具有野蛮生长的网络效应,而事实并非如此,护城河比较弱。这个观点基于Andreessen Horowitz投资公司网站上的一篇博客。The new business of AI (and how itsdifferent from traditional software).

从软件工程、系统部署的角度,强化学习/机器学习与传统的应用程序软件有许多区别,面对更多挑战。有一些论文讨论构建机器学习软件系统遇到的问题,比如技术负债(technical debts), 以及部署时遇到的问题。前面提到的微软的一篇论文,讨论了构建上下文多臂老虎机软件系统过程中遇到的问题,及解决方案;而另一篇论文则列举了应用上下文多臂老虎机软件系统过程中的经验教训。相信随着强化学习应用于越来越多的实际场景,会有越来越多的软件系统方面的经验教训分享。

从学习门槛看,强化学习植根于最优控制、心理学等,有很多概念,有很多算法,有很多背景理论,不易快速上手。而对超参数敏感、难复制等问题,也在实践中造成了很多障碍。2016、2017年强化学习刚火的时候,就出现了一些“劝退文”。从失败中吸取教训固然有意义,但从成功案例学习成功的经验,也可能帮助我们也取得成功。下面举几个例子,说一下强化学习项目的成功,需要积累、需要坚持、需要耐心。

AlphaGo的成功,是David Silver, Aja Huang等人十余年研发工作的积累。David Silver 2004年到Univeristy of Alberta师从强化学习之父Rich Sutton与计算机围棋专家Martin Muller读博士。之前,在游戏公司创业,担任CTO/lead programmer. 在Cambridge University读大学时与 Demis Hassabis是好朋友,后来Deepmind CEO. Aja Huang在台湾的博士论文题目关于计算机围棋,他2004年开始开发计算机围棋程序,后来到Univeristy of Alberta做博士后。

微软成功推出Personalizer, 是John Langford等研发人员十余年工作的积累;John Langford 与 Tong Zhang 于2007年NIPS发表contextual bandits理论方面的论文,而Lihong Li et al. 2010 WWW论文基于contextual bandits理论设计LinUCB等算法应用于新闻推荐等互联网应用。

平流层超高压⽓球自主导航的成功也是十余年的积累。摘抄合作作者博客中的一句话,"... had spent many years carefully fine-tuning our conventional controller based on a decade of experience working with Loon balloons". Drifting Efficiently Through the Stratosphere Using Deep Reinforcement Learning

滴滴基于深度强化学习的网约车派单任务的成功,虽然项目没有经历十年那么久,但也应该归功于滴滴管理层对方向的把握和坚持,以及研发人员前期的积累与项目期间的辛勤劳作。

从资源的角度,应该说,强化学习落地方面仍然没有获得足够的资源进行研发。有点像鸡生蛋蛋生鸡的问题:一方面,如果有突破性的成果可以催生出高回报产品,经费就会蜂拥而至,支持落地方面的进一步探索;另一方面,突破性的成果,需要一定的资源,进行一定的探索。当然,学术探索一般是高校、研究所的工作;虽然Microsoft Research, Deepmind, OpenAI等也是公司行为。而是否支持强化学习落地的探索,则取决于经费决策者、投资人的判断。

从投资的角度,强化学习暂时没有爆款应用;不过,强化学习大规模商用很可能处于黎明前的时刻。目前强化学习落地的投资,呼唤有长远眼光的决策者、投资人;千里马需要伯乐。强化学习的理念看长期效果。是否支持对强化学习落地的探索,本身也是一种决策过程,或许也应该用强化学习的思维,看长期回报,而不是只看短期的利益。应该允许暂时的损失--就像在围棋中,暂时丢几目,可能换来更多的地,甚至最终的胜利。强化学习的理念也包括试错机制。应该允许暂时的失败,允许从错误中学习改进。

应该说,如何把握时机,如何权衡回报与风险,是投资的核心问题。比如对深度学习方面创业公司的投资,在2012年AlexNet技压群雄时开始投,对比在2016年AlphaGo横空出世时,甚至更晚开始投,效果会很不同。最近强化学习落地方面的发展,或许已经表明,强化学习时代已经来临。不过,强化学习的落地,或许不像深度学习那样轰轰烈烈,或许会像春夜喜雨,随风潜入夜,润物细无声。

顺便提一下,即使有了资源,如何使用、如何管理、如何监督,也是问题。前几年,人工智能热,应该说有一些泡沫,导致一些资源并没有很好地被利用。最近的一条消息,由图灵奖获得者Yoshua Bengio加持的Element AI,2016年10月创立,融了约2.5亿美元,准备以2.3亿美元或者更低卖了。

从认知的角度,应该说强化学习的潜能还没有被充分理解。对强化学习的宣传、科普仍然不够。虽然经过AlphaGo,很多人了解了“强化学习”这一人工智能术语。但是,关于强化学习的很多问题,比如,能解决什么问题,有哪些优势,有什么问题,等等,目前可能仍然要强化学习专家才能比较清楚。应该让更多人认识到强化学习的巨大潜力。

如果有人说,(深度)强化学习不工作,这种说法对吗? 回答是:No. No. No!

强化学习落地的成功,需要一定的积累,一定的资源,⼀定的耐心。最近强化学习落地方面的发展,或许已经表明,强化学习时代已经来临。不过,强化学习的落地,或许不像深度学习那样轰轰烈烈,或许会像春夜喜雨,随风潜入夜,润物细无声。

注:关于标题:“强化学习时代已经来临!(?):2020年末随想”。标题中的感叹号,对最近强化学习的进展,尤其是落地产品,幕后的决策者、管理者、研发人员表达敬意。而括号中的问号,一方面,对“强化学习时代已经来临”这一表述表达谨慎的态度;另一方面,也想说明,强化学习的落地,挑战与机遇并存,而更多的人才、算力、经费等资源,会让强化学习的落地,更广更快。本来想写一篇强化学习落地“盘点”文的,后来觉得,一方面,前面写过一些介绍强化学习落地的文章,另一方面,写“随想”这样的文章,聊一些想法,与读者交流一下,也不错。

文章作者:李玉喜博士

原文链接:https://zhuanlan.zhihu.com/p/340734519

文章著作权归属作者,如果涉及侵权,请联系删文!

读者你好!我们建了人工智能学习交流群,欢迎对AI算法感兴趣的朋友进群讨论。微商、广告、号主勿扰!谢谢合作!^-^

请扫描下方二维码加我好友后,邀请你进群!

求分享    求点赞    求在看!!!

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值