AlphaZero黑箱终于被打开！登顶5年后，人类揭开它学会下棋的奥秘

QbitAl

于 2022-11-17 13:05:00 发布

阅读量106

点赞数

原文链接：https://mp.weixin.qq.com/s?__biz=MzIzNjc1NzUzMw==&mid=2247652719&idx=5&sn=853d2b99549f0ad08b10fb35d05422d7&chksm=e8de221ddfa9ab0bd9df574a84b085d8400e935a5777a7030e1f2b8ac786b564d82511b6938c&scene=126&&sessionid=0

版权

詹士发自凹非寺
量子位 | 公众号 QbitAI

AI如何学到知识的？科学家敲开了它的脑壳看了看。

这两天，DeepMind及谷歌大脑一篇文章被《美国国家科学院院刊》(PNAS)收录，其内容正是以5年前发布的AlphaZero为例，研究神经网络如何获取并理解国际象棋知识。

在内容中，研究者重点关注了「神经网络是如何学习的」「知识又如何被量化表示」等问题。

有意思的是，他们发现：

在没有人类对弈指导下，AlphaZero仍形成了一套类似专业棋手才懂的概念体系。研究者还进一步探寻了这些概念何时何处形成。

此外，他们还对比了AlphaZero与人类开局棋风的不同。

有网友感慨，这是个影响深远的工作：

也有人感慨，AlphaZero能计算任何人类行为特征了？！

欲知更多观察结果，往下看。

掀起了神经网络的头盖骨

AlphaZero于2017年由DeepMind发布并一鸣惊人。

这是一种神经网络驱动的强化学习器，专精于棋类，内部包含了残差网络（ResNet）骨干网及分离的策略及价值heads。

其输出函数可表示如下，z为国际象棋排布情况：

为研究AlphaZero如何「学习」的，研究者构建了一个人类理解国际象棋的函数c(z0)。其中，z0为一个象棋特定排布概念，c(z0)以专业国际象棋引擎Stockfish 8评估分数作为参考。

再从AlphaZero角度，设一个广义线性函数g(zd)，作为在不同层取值的探针。训练设定下，g(zd)将不断趋近𝑐(𝐳0)，研究者通过观察g(zd)与𝑐(𝐳0)近似情况，以确认系统是否理解相关概念。

接着，研究团队随机抽取了10万盘游戏作为训练集，观察AlphaZero表现。

情况如下图，结果显示，随着训练步数（step）及ResNet网络块数（block）越来越多，AlphaZero表现出来的分数越来越高（图A），对弈过程中，每一步对敌方威胁性的也随之增加（图C）。

由于实验中出现了异常值，研究者探讨了其背后的潜在语义。

如下图，少数红色点位置远离主流分布，残差值也在红虚线之上，说明人类对棋局判断c函数与g函数有明显差异。

研究团队发现，这些值对应棋局中，人类判断为白方有利，同时，黑方皇后都能在兑子（exchange）过程中被进一步吃掉。

研究者推断认为，这是源于AlphaZero的Value Head与参考评价函数编码方式与参考系统的不同。

此外，研究者还观察了人类棋手及国际象棋编程所看重的重要参数，随训练过程的变化，其中包括：国王安全度（King Safety）、一方棋子总战力（Material）、机动性（Mobility）、走棋威胁性（Threats）等。

结果显示，它们在初始情况下几乎为零，但随着训练不断往下进行，以国王安全度（King Safety）、一方棋子总战力（Material）为代表，部分参数在模型中的权重明显上升。

这让研究者相信，通过训练过程，AlphaZero已经逐渐掌握了原本没有教给它的相关重要概念或者说知识。

最后，研究者还着重看了看开局演变与下棋风格，发现AlphaZero随时间推移，下棋路径选择范围在缩小，而人类下棋偏好和路径在变多。

科研人员表示，目前原因尚不清楚，但它反应了人与机器神经网络之间的根本差异。

关于后续研究方向，作者提出，下一步希望能探索AI模型能否超越人类的认知概念范围，去掌握学会新的东西。

团队介绍

本文一作Thomas McGrath 来自DeepMind，博士毕业于伦敦帝国学院，主要研究领域包括ML、人工智能安全及可解释性。

二作Andrei Kapishnikov，来自Google Brain，主攻人工智能应用领域，早前曾在VMware及Oracle从事技术工作。

值得一提的是，国际象棋大师Vladimir Kramnik也参与了该项目的研究。

参考链接：
[1]https://twitter.com/weballergy/status/1461281358324588544
[2]https://www.pnas.org/doi/10.1073/pnas.2206625119

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
AlphaZero黑箱终于被打开！登顶5年后，人类揭开它学会下棋的奥秘

詹士发自凹非寺量子位 | 公众号 QbitAIAI如何学到知识的？科学家敲开了它的脑壳看了看。这两天，DeepMind及谷歌大脑一篇文章被《美国国家科学院院刊》(PNAS)收录，其内容正是以5年前发布的AlphaZero为例，研究神经网络如何获取并理解国际象棋知识。在内容中，研究者重点关注了「神经网络是如何学习的」「知识又如何被量化表示」等问题。有意思的是，他们发现：在没有人类对弈指导下，Al...
复制链接

扫一扫

QbitAl CSDN认证博客专家

CSDN认证企业博客

1388: 原创

2346: 周排名

78: 总排名

506万+: 访问

: 等级

6万+: 积分

1万+: 粉丝

1万+: 获赞

4051: 评论

3万+: 收藏

私信

关注

热门文章

最新评论

AI读论文新神器：多栏密集文字、中英图文混排文档都能读的多模态大模型Fox｜旷视...
qinxiaoxiao_2333: 怎么试用呢
活体脑细胞做成16核芯片，用Python就能编程，9个机构开展实验36所大学排队
2301_82242410: 干货满满，细节很到位！【我也写了一些相关领域的文章，希望能够得到博主的指导，共同进步！】
OpenAI抓内鬼出奇招，奥特曼耍了所有人：GPT搜索鸽了！改升级GPT-4
YesPMPYesPMP: 互联网众包平台Yespmp，帮助项目实现落地。平台提供全方位的服务，包括IT项目开发、运营推广、创意设计、灵活用工等多个领域。它为项目发包方和接包服务商提供了一个交流和合作的平台，帮助双方找到合适的合作伙伴，解决项目管理中的各种痛点，如项目风险高、成本和进度控制困难等。同时，平台还提供项目监理、开发工具包、虚拟课堂等支持，帮助项目从设计到开发再到运营的整个周期顺利实施。
GPT-4 Turbo首次被击败！国产大模型拿下总分第一
Willow&Hecker: 还以为CSDN的评论区会是高手在技术层面的评价，本来想瞻仰一下，结果都是情绪性的发泄，还比不上知乎，甚至连微博都比不上。起码微博还会尝试找点看起来有技术元素的东西编小作文，让自己的话更有说服力。
GPT-4 Turbo首次被击败！国产大模型拿下总分第一
m0_48850353: 免费吗？

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

2024

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。