​人类终于创造了惰性人工智能……

全文共1802字,预计学习时长6分钟

来源:Pexels

许多文章解释了强化学习(RL)的概念,但鲜有文章解释如何切实地设计实现现实世界中的强化学习。

小芯这次想分享人工智能范式转变课程,讨论设计权衡问题,并深入研究技术细节。

那么,我们开始吧!

 

首先,喝酒?

 

想象一下你身处聚会,有点微醺或酩酊大醉,自愿参加一个饮酒游戏,想要打动一个(或多个)颇具魅力的泛泛之交。

 

有人蒙住你的眼睛,给你一杯或一瓶啤酒,喊道:“倒酒!”

 

你会怎么做?

 

可能会有以下反应:该死,我应该怎么做?怎样能赢!要是输了怎么办!?

 

游戏规则如下:在10秒内把啤酒灌满,尽可能接近玻璃杯上的标记。可以把啤酒倒进倒出。

 

RL(强化学习)解决方案面临着类似的任务,高大上且有意义,欢迎了解。

 

现实世界中的啤酒问题

 

环保共享单车业务存在一个大问题。一天中,每个单车停放处(杯)的共享单车(啤酒)数量过多或不足。

 

纽约市单车停放处的单车过剩(左图)和不足(右图)

 

对于骑自行车的人来说,这十分不便,并且要花费数百万美元来管理运营,也不划算。不久前,笔者在纽约大学的团队任务是提供人工智能解决方案,将人工干预降到最小,帮助管理自行车库存。

 

目标:每天将各个单车停放处的数量保持在1至50之间(想想杯子上的标记)。这在共享经济中被称为“再平衡问题”。

 

限制条件:由于运营限制,团队每天每小时只能移动1、3或10辆单车(可以倒入或倒出的啤酒量)。当然,他们可以选择什么都不做。团队移动的单车越多,价格越昂贵。

 

惰性RL(强化学习)解决方案

 

来源:Pexels

团队决定使用RL (强化学习),它克服了传统方法的许多局限(例如基于规则和预测)。

 

如果想了解RL(强化学习)以及一些关键概念,乔纳森·辉(JonathanHui)撰写了一篇很棒的介绍,托马斯·西蒙尼尼(ThomasSimonini )详细解释了解决方案中应用的RL算法Q-Learning。

 

事实证明,人类创建了极具惰性的人工智能。当单车存量超过60辆时,它通常会选择不执行任何操作或执行最少操作(移动1或3辆自行车)。似乎有违常理,但这是非常明智的。

 

 

根据直觉,可能会移动尽可能多的单车以将其保持在50辆以下,尤其是在停放处停满时。但是,RL(强化学习)识别出移动成本(移动的单车越多,成本越高)以及在某些情况下成功的机会。考虑到所剩时间,根本不可能实现目标。它知道最好的选择是“放弃”。因此,放弃比继续尝试要付出更少的代价!

 

所以呢?当人工智能做出非常规决策时,类似于谷歌Alpha Go研发的著名Move 37 and 78 ,它们会挑战人类的偏见,帮助打破知识的魔咒,并将人类推向未知的道路。

 

创造人工智能既是一种发明,也是一种探索人类内心活动的旅程。——DeepMind创始人德米斯·哈萨比斯 (Demis Hassabis)在《经济学人》杂志《2020年的世界》(The World in 2020)一文中所言。

 

但是,请保持谨慎。人类价值体系无可替代,因此人类不会一落千丈或迷失自我。

 

哲学知识已经足够了,现在现实一点吧

 

RL如何管理单车停放处?

下图显示了在有无RL的情况下,一天当中单车的停放量。

 

·       蓝色线是无RL情况下的单车停放趋势。

·       黄色线是最初RL情况下移出单车的趋势,很昂贵。

·       绿色线是训练有素的RL,它仅移出足以满足目标的单车,更能了解成本。

作者分析

 

RL如何决定该做什么?

以下是经过98,000次训练后RL解决方案Q表的快照。它解释了RL如何根据停放处(垂直数据)上的自行车数量来决定做什么(水平数据)。RL不太可能选择用红色进行操作。看看底部的红色区域。

作者分析

 

RL能有多智能?以下图表介绍了RL对停放处的管理情况。通过深入学习,RL可以将整体成功率逐步提高到98%,令人印象深刻。

作者分析

 

希望大家喜欢这篇文章,并由衷地期待RL在现实世界中展示出的潜力。

推荐阅读专题

留言点赞发个朋友圈

我们一起分享AI学习与发展的干货

编译组:王馨、周果

相关链接:

https://towardsdatascience.com/we-created-a-lazy-ai-5cea59a2a749

如转载,请后台留言,遵守转载规范

推荐文章阅读

ACL2018论文集50篇解读

EMNLP2017论文集28篇论文解读

2018年AI三大顶会中国学术成果全链接

ACL2017论文集:34篇解读干货全在这里

10篇AAAI2017经典论文回顾

长按识别二维码可添加关注

读芯君爱你

展开阅读全文

Git 实用技巧

11-24
这几年越来越多的开发团队使用了Git,掌握Git的使用已经越来越重要,已经是一个开发者必备的一项技能;但很多人在刚开始学习Git的时候会遇到很多疑问,比如之前使用过SVN的开发者想不通Git提交代码为什么需要先commit然后再去push,而不是一条命令一次性搞定; 更多的开发者对Git已经入门,不过在遇到一些代码冲突、需要恢复Git代码时候就不知所措,这个时候哪些对 Git掌握得比较好的少数人,就像团队中的神一样,在队友遇到 Git 相关的问题的时候用各种流利的操作来帮助队友于水火。 我去年刚加入新团队,发现一些同事对Git的常规操作没太大问题,但对Git的理解还是比较生疏,比如说分支和分支之间的关联关系、合并代码时候的冲突解决、提交代码前未拉取新代码导致冲突问题的处理等,我在协助处理这些问题的时候也记录各种问题的解决办法,希望整理后通过教程帮助到更多对Git操作进阶的开发者。 本期教程学习方法分为“掌握基础——稳步进阶——熟悉协作”三个层次。从掌握基础的 Git的推送和拉取开始,以案例进行演示,分析每一个步骤的操作方式和原理,从理解Git 工具的操作到学会代码存储结构、演示不同场景下Git遇到问题的不同处理方案。循序渐进让同学们掌握Git工具在团队协作中的整体协作流程。 在教程中会通过大量案例进行分析,案例会模拟在工作中遇到的问题,从最基础的代码提交和拉取、代码冲突解决、代码仓库的数据维护、Git服务端搭建等。为了让同学们容易理解,对Git简单易懂,文章中详细记录了详细的操作步骤,提供大量演示截图和解析。在教程的最后部分,会从提升团队整体效率的角度对Git工具进行讲解,包括规范操作、Gitlab的搭建、钩子事件的应用等。 为了让同学们可以利用碎片化时间来灵活学习,在教程文章中大程度降低了上下文的依赖,让大家可以在工作之余进行学习与实战,并同时掌握里面涉及的Git不常见操作的相关知识,理解Git工具在工作遇到的问题解决思路和方法,相信一定会对大家的前端技能进阶大有帮助。
©️2020 CSDN 皮肤主题: 大白 设计师: CSDN官方博客 返回首页
实付0元
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、C币套餐、付费专栏及课程。

余额充值