“不务正业”斗地主?AI青年查道琛想做“被人看到”的研究

原来他们是这样走过来的!

【AI红人荟】——这里是TechBeat人工智能社区为优秀的AI工作者开设的人物专访栏目。从膜拜“红人”到成为“红人”,TechBeat与你一起,在AI进阶之路上,升级打怪、完美通关~

本篇人物,是来自莱斯大学的在读博士生查道琛。在游戏中打磨对强化学习的理解,这位看似“玩心”略重的青年,告诉我们“玩”只是一种手段,而他的目的是做出被人“看见”的有价值研究。以下为采访全文,欢迎阅读~

TechBeatTechBeat是荟聚全球华人AI精英的成长社区,每周上新来自顶尖大厂、明星创业公司、国际顶级高校相关专业在读博士的最新研究工作。我们希望为AI人才打造更专业的服务和体验,加速并陪伴其成长。https://datayi.cn/w/GR4vQ82o

提到斗地主你能想到什么?

AI青年查道琛眼里,斗地主可不只是一项“不务正业”的娱乐游戏。

作为机器学习和数据挖掘方向的在读博士,用强化学习算法从零开始学打斗地主,是查道琛在工业界的首次尝试。除了理论研究,他还是RLCard、DouZero等斗地主AI相关开源软件包的作者。在斗地主AI研究不断推进过程中,查道琛也找到了自己的目标方向——他想做出“被人看到”的研究。

上万种组合可能,

从零开始学打斗地主很有挑战

查道琛目前在莱斯大学读博士四年级,他博士第一个课题就是关于斗地主AI研究,两年前的暑假,他又在快手开始了自己的工业界实习,继续做强化学习相关的斗地主AI研究。

莱斯大学信息检索课课堂分享

斗地主AI研究的实习经历,让查道琛收获良多,他还曾在TechBeat人工智能社区分享相关主题Talk,希望用通俗易懂的语言让更多人看到他关于斗地主AI研究的成果。

 查道琛Talk分享 

👉《斗地主AI探究:从零开始学打斗地主

👉 链接:https://www.techbeat.net/talk-info?id=582

正如查道琛分享中提到的,之于强化学习来说,斗地主是有诸多难点的。

斗地主是一个非常具有挑战性的非完美信息游戏,包含巨大的动作、状态空间,竞争与合作等。玩过斗地主的朋友应该都清楚,这是一个有多种牌型的游戏,“单牌、对子、顺子、三带一”等等。不同的牌型组合可多达上万种可能,而在游戏过程中,能否获胜不仅取决于玩法策略,还有对手的能力、队友的能力等因素需要考虑在内,这也给强化学习带来了更大的挑战,也意味着研究者必须找到更好的方式“训练”机器。

查道琛参与的斗地主AI项目DouZero采取的是简单又有效的方式——蒙特卡罗方法,即通过重复采样,根据事件发生的频率来估计概率。但普通的蒙特卡罗方法并不能应对斗地主的上万种牌型组合等复杂情况,查道琛因此进行了加强改进,引入了深度神经网络,形成深度蒙特卡罗算法(Deep Monte-Carlo),有效地实现了大规模采样,更为精准地估计概率,从而提高DouZero的综合胜率。

从大量的实验结果看,DouZero已经能够超过现有的所有斗地主AI。“在我们的在线演示中,人类玩家综合胜率不到40%。在斗地主这种运气成分比较高的游戏中,算是比较显著的。”查道琛如是介绍了DouZero的水平。

DouZero的成果也让查道琛看到了诸如蒙特卡罗方法一类的简单方法与强化学习结合的可能。在他看来,算法并不是越复杂越好,更重要的还是使用高效,能够有效地应用更为重要。

“我想做让人‘看得到’的研究”

DouZero是专门为斗地主设计的训练框架,查道琛同时还开发了一个专门为游戏AI设计的开源工具包RLCard,且并不局限于斗地主,麻将、德州扑克等八种棋牌游戏都可应用,也支持各种强化学习算法(比如DouZero中使用的算法DMC、DQN、CFR等)以及分析可视化工具。

除此之外,他也是TODS、AutoVideo等多个游戏AI和自动机器学习开源软件包的作者,总共收到超过5,000个GitHub星标。“我热衷于开发各种软件包,在Github中能让更多人看到、使用。”在查道琛看来,这种对他人的直接帮助与影响能够让自己的研究成果得到最大程度的利用。

https://github.com/daochenzha

自己写的论文能启发他人、开发的软件包可以帮助他人,这些都是非常直接的“正反馈”,也让AI青年查道琛觉得自己做的东西有“被看到”,是他的研究价值体现与成就感来源。

在学术界,“被看到”不仅需要做出好的研究成果,更要有良好的学术表达。

查道琛师从美国莱斯大学胡侠老师,刚到美国时,是胡老师带他逐渐熟悉课题,并细致指导了他的第一篇论文。在后续的研究中,哪怕有时候影响进度,胡老师也并不会做“手把手的指导”,而是放手让他去领导整个项目。查道琛说,胡老师对他最大的影响,就是让他学会独立的、清晰明了地讲好“学术故事”

“第一是明确研究的动机,也就是为什么要做这个研究;第二是说明研究的挑战,阐述研究的独特意义;第三则是说清楚自己比较特别的解决方案是什么。做研究前,要把这几个问题想清楚。”

在查道琛眼中,胡侠老师更重视对学生在大方向上的把握,在具体的研究上,则给学生留下空间期望青出于蓝而胜于蓝,这也为查道琛带来更多的学术研究自由,向自己的目标不断迈进。

有了胡侠老师这套行之有效的方法论,查道琛在学术研究之路上越发顺畅。目前,他的研究发表在诸多主流的机器学习和数据挖掘会议上,包括ICML、ICLR、NeurIPS、KDD、AAAI、IJCAI等,他的学术成果,也因此被更多人“看到”了

莱斯大学数据挖掘实验室聚餐

“强化学习的原理在于不断试错”

作为一个斗地主玩家,对于扑克游戏AI研究,查道琛有自己的观察。

“目前对扑克游戏AI研究有两种主流方法,一种是更注重复盘的反事实后悔,另一种就是他目前正在研究的强化学习。强化学习更像是一种采样算法,不是依赖复盘,而是通过多打几盘,从中根据采样信息找一些规律,最后取得比较好的结果。

“多打几盘”也是查道琛在做选择之前的心态,他并不会先设定一个宏大的目标,而是不断探索精进,在过程中逐渐清晰选择的方向,直至走到正确的道路。一如查道琛理解强化学习的原理,正是在于不断试错,从而越来越强

不断尝试与修正的方法渗透在查道琛生活与学习方方面面,在尝试的过程中,查道琛也收获良多。尽管已经在顶会中发了不少文章,但查道琛看重的并非仅仅是发论文的结果。论文投稿时,查道琛显得有些佛系。“我不太会去赶会议的deadline,想的更多的是先把事做好,如果正好有会议就投一下试试。”

他的导师胡侠老师认为,顶会的文章数量并不能完全说明一个人的学术能力,质量和研究价值更为重要,显然,查道琛在这个方面也深受老师影响。

在实验过程中查道琛也有着“试错”与“及时修正”的态度——用小的实验去验证数据,再慢慢验证迭代,出现问题也不回避,而是第一时间寻找解决办法。“有时候论文投出去一次被拒可能是运气不好,但如果好多次那就可能是哪个地方真的有问题,这时就不能心存侥幸,而是真的把问题解决掉。

当然,这种试错的路必定漫长且需要耐得住寂寞、踏实走好每一步。博士的学习生活忙碌而繁杂,但好在查道琛能够十分专注地去面对学术研究,并且有“今日事今日毕”的好习惯,每天设定小目标,有“一定要做完”的固执和决心。

“也并不是没有拖延症,而是有时候一件事拖太久了,拖到后面就不会做了。”查道琛深知做学术急不得,日拱一卒的快乐也让他很有获得感。

未来,查道琛会选择怎样一条路,关于毕业后的职业规划,查道琛尚且没有定论,父母和导师都鼓励他去工业界多实习再做决定。

ICLR 2019参会现场

如同强化学习一样,他想在过程中尽可能多的收集数据信息、探索规律、多去尝试再做选择。AI青年查道琛的学习与探索从未停止,前路可期!

//

嘉宾介绍

查道琛

查道琛目前是莱斯大学四年级博士生,主要从事机器学习和数据挖掘方面的研究。主要研究兴趣是强化学习、自动机器学习以及它们的应用。他的研究发表在了主流的机器学习和数据挖掘会议上,包括ICML、ICLR、NeurIPS、KDD、AAAI、IJCAI等。他是多个游戏AI和自动机器学习开源软件包的作者,包括RLCard、DouZero、TODS、AutoVideo等,总共收到超过5,000个GitHub星标。

-The End-

关于我“门”

将门是一家以专注于发掘、加速及投资技术驱动型创业公司的新型创投机构,旗下涵盖将门创新服务、将门-TechBeat技术社区(TechBeat)以及将门创投基金。

将门成立于2015年底,创始团队由微软创投在中国的创始团队原班人马构建而成,曾为微软优选和深度孵化了126家创新的技术型创业公司。

如果您是技术领域的初创企业,不仅想获得投资,还希望获得一系列持续性、有价值的投后服务,欢迎发送或者推荐项目给我“门”: 

bp@thejiangmen.com

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值