【强化学习炼金术】李飞飞高徒范麟熙解析强化学习在游戏和现实中的应用

在新智元上一篇文章中,Jim Fan(范麟熙)介绍了强化学习的概念和目的。今天是《强化学习炼金术》Introduction第三讲。

在这一课里,Jim Fan会跟各位炼金术师们聊一聊游戏中的强化学习以及强化学习在现实生活中的应用。

一、游戏与强化学习的渊源

游戏是大家都喜欢的东西,而有一个群体尤甚:他们叫【程序员】2_06.png?wx_lazy=1。所以在人工智能的发展历史中,游戏扮演着不可或缺的角色。

不方便看视频的朋友们,请下拉阅读图文smiley_63.png?wx_lazy=1

6f3065e06d224ea23dea51b88b0615176eb1f51b

39f4b37567b126a2e50c9dab8da58b289b891718

IBM研究员Arthur Samuel,是世界上第一个把强化学习应用在一个主流的棋盘游戏上的人。他当时写了一个跳棋的引擎,但其实他的引擎并不是世界上最强的。在1989年到2007年之间,加拿大阿尔伯坦大学的团队,做了一个跳棋的人工智能 —— Chinook。把Chinook喻为跳棋之神毫不为过,因为它在真正意义上破解了跳棋。换言之,就是不论你用什么策略,Chinook永远不会输。这是可以在数学上被验证的。

我有几张阿里云幸运券分享给你,用券购买或者升级阿里云相应产品会有特惠惊喜哦!把想要买的产品的幸运券都领走吧!快下手,马上就要抢光了。

根据Chinook的分析,在跳棋中不论你是先手或是后手,只要有一个完美的策略,永远双方都会打成平手。也就是说,跳棋被证明是一个真正意义上的零和博弈。

5aef02f0a24b2db322039a9832a41bb308c64876

下一位出场的,也是IBM的研究员 Gerald Tesauro。他最著名的成就,就是写了一个能够超越人类Backgammon世界冠军的人工智能。Backgammon是一个有一定随机性的掷骰子的概率游戏。Tesauro的引擎叫做TD-Gammon,TD就是刚才说到的时间差学习。

在这边要声明一下,为什么我们不提IBM的Deep Blue,即当年击败国际象棋世界冠军卡斯帕罗夫的深蓝国际象棋引擎。其实Deep Blue几乎没有用到任何机器学习,更别提强化学习。Deep Blue是一个规则系统,它的团队当时请了很多国际象棋大师过来帮他们手写那些象棋的规则或者策略,所以它并不是一个学习系统。

原文链接

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值