强化学习AI:它菜了,我慌了

迄今为止,深度强化学习在很多方面都取得了巨大的成功,譬如围棋界的AlphaGo。

AI的强大开始让人类自卑,甚至有人说AI是故意输给人类为了能够继续被训练提升,但细致分析就会发现,博弈中的细节暴露出AI的弱点。

AlphaGo的破绽

在团体赛中,AlphaGo与五位人类围棋大师对弈,在人类获胜无望的情况下,大师剑走偏锋,成功诱使AI犯错,AlphaGo下出荒唐的一步棋也是逗笑了对坐代为执棋的黄博士。

AlphaGo的弱点就是“官子”。

所谓官子,也就是收官的意思,一场围棋进入官子阶段时,就是快要结束的时候,此时大局基本已定,只需要处理一些零碎的空地,专业点的说法也叫“详细点目”。

在官子阶段,AlphaGo一改之前的凶悍走法,变得非常保守,能让的子都让了,并且规避一切复杂变化,AlphaGo的官子退让成了人类对手反击的机会。


而最近ICLR 2020上的一项研究,更直观的让我们体会到强化学习破绽在哪里。

博弈游戏

论文团队研究了三种不同场景下两个小人间的博弈游戏。

首先是在一块空地上,小蓝的目的是要越过红线,小红要拼命阻止小蓝,在强化学习训练约1.3亿次左右后,小蓝已经能轻松摆脱小红的纠缠获得胜利。

但当研究人员设定让小红一开局就原地卧倒,神奇的一幕发生了,小蓝看到小红奇怪的反应后自己也不知所措了,多次腿脚不稳直接跌倒:“就像是失去神经,我感觉不到呼吸......”。

第二个场景是足球射门攻防,小红守门,小蓝射门,在正常训练进程中,小红不断预判射门方向进行走位,小蓝不断调整步法和角度以寻求合适的时机。

双方剑拔弩张,激烈程度堪比C罗的点球大战。

而当守门员小红直接放弃守门,原地抽搐后,小蓝看到可能也是一惊,瞬间腿脚慌忙仰面倒地不起。

最后一个比拼是相扑,把对方推下平台就算胜利。

正常训练下双方依然不分伯仲。

而当小红跪倒后,原本冲过来的小蓝直接转头爬走,最终自己摔了下去。

为什么在我们看起来本应更容易获胜时AI反而出现胜率降低的情况?
文中把这种引入的策略称为:对抗例。

对抗策略

如何攻击训练好的深度强化学习模型?论文团队的办法是当AI进入目标状态时引导环境产生扰动。

譬如第一个游戏中,小蓝通过观察小红身上的一些关键点来判断小红将会从哪个方向阻拦自己,从而对自身做出调整;而当小红蜷缩成一团,小蓝经过训练的敏锐观察力此时反而会导致他做出错误的决策。

这不是一种过拟合,引用原文中的话是“经过训练的AI会导致看似强硬睿智的决策在对付新手时失败”,简单的理解就是“它这波只在第二层,而我在第五层”。


我太强所以我输了~

文章还证明了他们是通过采取行动来诱导对AI不利的环境观察而胜出的,而这种诱导的结果不是随机的,是消极的。

他们引入一个“蒙面”的小蓝,人们会认为能够看到你的对手是有益的。确实,当蒙面小蓝在与普通小红比赛时表现没有普通小蓝好,但当我们给小红施加对抗策略(如让小红原地趴下),反而蒙面的小蓝比普通小蓝表现更好,能够毫不犹豫的朝红线跑去。

文章中还对环境信息的维度进行了研究,发现观察空间的维数越大,强化学习AI就越容易受到这种干扰,下图展示了“蚂蚁相扑”,相比于人形态,蚂蚁包含信息较少,因此蚂蚁小蓝即使面对小红的各种干扰获胜率依然很高。

魔鬼藏于细节,深度强化学习还有很长的路要走。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值