AlphaGo:从直觉学习到整体知识

谷歌AlphaGo最近战胜了欧洲顶尖职业围棋玩家,这一壮举被广泛认为是人工智能(AI)的重大突破,因为AlphaGo所具有的功能(围棋的复杂度是国际象棋的指数倍)以及出现的时间(比预期要早出现许多)。它的产生所带来的飞跃就像是发达肌肉和大脑,前者在计算能力上大幅增加,后者创新组合建立好的算法。

图片描述

这项突破以及它实现的方式可能会对未来IA带来对立的观点:任一当前概念框架都是最好的选择,随着健壮的机器变得更聪明,它们迟早会超过它们的人类制造者;或者这是一种迷惑,可能让更健壮的机器和无助的人类陷入其中。

AlphaGo和DeepMind的开发人员可以在这困境中指出一条整体出路吗?

来源分类法

借用斯宾诺莎的话,人们可以从考虑来源知识类别开始:

  1. 第一类是通过我们的感官(视觉,听觉,嗅觉,触觉)或信念(通过我们共同的“感觉”作为培育)来实现。这一类天生容易受环境和偏见影响。
  2. 第二类是通过内置推理,即符号表示的心理过程。其目的是普及和开放分析,但它无法保证与实际现实的一致性。
  3. 第三类是通过哲学实现,它本质上将认知,直觉和符号表示结合。

然而对于第一点不会有太多的争议,第三类对哲学原理有广泛的空间,从宗教到科学,集体意识形态,或精神超越。随着今天的知识横跨智能设备,并由群众智慧驱动,哲学似乎更关注大数据而不是它原本关注的领域。

尽管(或者是因为)它的重点是第二类,AlphaGo和它的创建者的壮举仍然可以为整个人工智能的努力带来一些经验。

表示分类法

如前所述,IA支持范式的有效性已经由指数形式增长的数据和处理能力支撑着。毫不奇怪,那些范式在知识来源,隐式感觉,显式推理上与两种基本的表示形式有关:

  • 基于符号表示的设计可以处理显式信息:数据被“解释”成信息,然后当做知识使用,用来主导行为。
  • 基于神经网络的设计具有处理隐式信息的特征:数据被“编译”成神经元连接,他们的权重(可以理解为知识)根据行为反馈迭代地进行调整。

由于该二元性反映了人类的认知能力,建立在这些设计上的智能机器是为了将合理性与有效性结合:

  • 符号表示支持两端的透明性和方式的溯源性,可以对目的性,实际性或社会性进行分类。
  • 神经网络,在它们学习内核的帮助下,可以直接在数据上操作,加快了具体目标的实现,这基于支持知识,这些知识隐式地以加权连接呈现。

这种方法的潜能已经由基于互联网的语言处理展现了:实际的关联分析“观察”了数以亿计的话语,它们正在逐步补充甚至取代基于Web解析器的语法语义规则。

在这一点上,AlphaGo有它的野心,因为它只处理非符号的输入,即围棋高手玩家落子的集合(共约3千万)。但是,这个限制也可以成为一个优势,因为它带来了同质性和透明性,使得算法有了更高效的组合:健壮的组合用来进行实际行动,使用最好玩家的直觉知识,聪明的组合用来进行推断行动、计划和策略。

教它们如何协同工作,可以说是这项突破的关键因素。

学习分类法

对于智能机器,应该可以预料到,它们骄人的成就完全取决于它们的学习能力。而这些能力通常分别运用到隐式(或是非符号)和显式(或是符号)内容上,让它们在同一个认知引擎的管控之下,就如人脑通常那样,这也成为IA的长期首要目标。

实际上,这已经由神经网络实现了,它将监督式和非监督式学习结合:人类专家帮助系统去其糟粕,然后通过系统自己百万次的训练来提高它们的专长。

然而,领先的AI玩家的成就已经揭露出了这些解决方案的局限性,即扮演最好人类玩家并打败他们性质上的差距。而前者的结果可以通过似然决策得出,后者需要原始方案的开发,这就带来了定量和定性的障碍:

  • 与实际动作相反,可能的动作没有限制,因此在搜索树中以指数形式增长。
  • 原始计划根据估值和策略制定。

通过单个方案克服这两个挑战,可以说是DeepMind工程师的关键成就。

掌握搜索树的广度和深度

使用神经网络对实际状态评估以及来自于搜索树中以指数形式增长的广度和深度的策略采样。然而蒙特卡洛树搜索(MCTS)算法可以用来解决这个问题,用有限的能力扩大处理性能仍然只能处理树较浅的部分;直到DeepMind的工程师将MCTS运用到分层的估值和策略网络上,成功解除了深度的障碍。

AlphaGo无缝使用了分层的网络(即深度卷积神经网络)进行直觉学习,强化,评估和策略,围棋的棋盘和规则(与国际象棋一样,无差异性移动和搜索陷阱)的同质性使之成为可能。

从直觉到知识

人类是唯一能够将直觉(隐式的)和符号(显式的)知识结合起来的物种,人类具有这样的双重能力,将前者转换成后者,然后通过后者的反馈反过来改善前者。

用在机器学习方面的话需要监督式和非监督式学习的连续性,这应该可以通过神经网络达到,这种神经网络可以用来符号表示和处理原始数据:

  • 从显式到隐式:为特定情境和目的建立的符号描述将被输入到神经网络之中,在目标环境的数据上进行测试和改善。
  • 从隐式到显式:一旦通过百万次在相关目标上运行对设计进行了测试和强化,将有可能对结果重新设计,用来改善符号描述。

然而深度符号知识的非监督式学习超出了智能机器的范围,显著的结果可以在“平坦”的语义环境下得到,比如,如果同一个语义可以用来评估网络状态和策略:

  1. 在百万次落子中由人类专家观察到的直觉部分的监督式学习。
  2. 自我对弈中的非监督式强化学习。
  3. 使用蒙特卡洛树搜索(MCTS)构建,评估和完善自我策略的规划和决策。

没有围棋整体性的性质,将不可能有这种深度和无缝的集成。

美学评估和整体知识

围棋的特异性是双重的,定量侧的复杂性,定性侧的简单性,前者是后者的代价。

与国际象棋相比,围棋的实际位置和潜在落子方式只能由整个棋盘进行评估,它使用了一个最具美学的标准,不会简化成任意度量和手工制作的专家规则。玩家不会在详细分析当前位置和评估可供选择方案后再落子,而是根据他们的对棋盘的直觉。

因此,AlphaGo的行为会完全按照上面所说的第二层次的知识进行:

  • 作为游戏玩家,它可以从现实考虑中分离。
  • 作为围棋玩家,它不需要解决任何语义复杂性。

给予足够的计算能力,DeepMind工程师的主要挑战是教AlphaGo将它的美学直觉转换成整体知识,而不需要定义它们的实质。

原文:AlphaGo: From Intuitive Learning to Holistic Knowledge
编译:刘翔宇
责编:周建丁(zhoujd@csdn.net)

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值