Human-level concept learning翻译(2)

续(1)

结论
用五份“概念学习任务”同时比较人类,BPL和另外的自动模型来检验通过很少的字符例子画出新的图像有和不同之处(示例见图5)。该实验基于亚马逊土耳其机器人(Amazon’s Mechanical Turk),实验的细节在补充材料的S5部分。主要的结果见图6的总结,额外的详细分析和程序控制见补充材料的S6部分。
单目标分类的好坏通过一系列对十种不同的字母分类任务进行评估。正如图1B(i)所阐述的那样,比对着一幅新字符的单张图像,从字符集中20张不同字符里选出一张与上面一幅一模一样的概率只有5%。作为底线,改进的计算图像中心豪斯多夫距离错误率为38.8%。人类在单目标识别方面很擅长,40个人参与测试,平均识别错误率为4.5%。BPL的错误率为3.3%,比深度卷积神经网络(如convnet算法错误率13.5%)和HD模型(错误率34.8%)的效果好得多,而这些都是在另外的计算机视觉任务中表现很好的算法。双卷积神经网络对此进行优化效果达到8.0%的错误率,这仍比人类及我们的算法错误率超出一倍。与在此处比较的经典深度学习方法不同的策略是,BPL的优势在于模拟学习概念方面潜在的因果关系。正如高错误率的剔除“学着学习”的BPL和剔除“语义合成”的BPL(错误率分别为11.0%和14.0%)所示,BPL的其他关键组成部分也作出了积极的贡献。“学着学习”通过扰乱生成模型的超参数优化分别就种类和笔画级别两方面进行训练。“语义合成”的评估则是通过只允许基于一个笔画将匹配的BPL模型之间进行比对,这就好像对有着相似限制的手写体字符综合模型的初期分析那样。
人类单目标识别的能力不仅仅是分类。它还包括一系列的能力,比如生成相同概念(与识别目标相同)的新例子。我们将人类和机器画出的字符来进行图灵视觉测试,以人类和机器画出的字符让人类来辨识哪些是机器生成的。在一个基础实验中,我们要求判断根据同一个示例不同的九个人画出的字符与BPL生成的九个字符(见图5)。我们依据判断结果的准确性来评价每个模型,把这个叫做识别级别:理想的模型识别级别50%,表示难以将人类与BPL区分出来;最差的则是100%。通过逐个分析和整体分析,147个中完成了49个阻塞反馈(有49个判定为BPL),结果见图6B(生成新例子)。对人类和BPL的平均识别等级达到52%。总体来讲,这种表现仅比chance[t(47)=2.03,P=0.048]强一些,而在48项判断中仅有3箱的识别等级确实超过chance。三种缺陷模型也用图灵视觉测试分别进行试验,来检测所缺的那项是否是必要的组成部分。缺少“学着学习”和“语义合成”在更简单的图灵测试任务中结果分别为80%(19个里面判断17个不是)和65%(26个里面14个不是),这表明这项任务很不寻常而且这两种原则对BPL的似人化非常重要。为了更直白得评价分解情况(见图4B),我们通过另外一个动态视觉测试(143个判断)来完成此项任务,要求对同一字符让一个人和BPL展示画的过程。BPL在此项视觉测试中表现不佳(平均识别等级59%,见图6B 动态生成新例子)。虽然随机化学习笔画优先级与方向之后增大了识别等级(71%),这表明BPL正确的动态因果(笔画顺序和方向)的重要性。
纵然从30个背景字符中学着学习新字符是有效的,但是人类学习者却只需更少的步骤:大概只需要熟悉一个或很少的字符就可以完成相关的绘画任务。为了观察模型在更加首先的时候效果如何,我们仅用有5个背景字符的两个不同子集来重新训练。当使用30个字符时,BPl在单目标识别时达到了相似的表现(两个集合分别是4.0%和4.35%的错误率);与此形成鲜明对比的是,深度卷积网络的表现比之前差得多(两个集合错误率分别是24.0%和22.3%)。BPL的模板生成图灵视觉测试(59个字符)中也与第一次的集合相似(52%的平均识别级别与chance t(26)=1.04,P>0.05没有显著不同),27个判断中仅有3个确实比chance高,而第二个则稍微差一些(57%的识别级别,t(31)=4.35,P<0.001,32个判断中有7个确实高于chance)。这些结果表明即使学着学习对BPL的成功很重要,但是模型的结构使得它几乎完全利用相对有限的背景训练数据。
人类在给定概念之后的生产能力超过创造新例子的能力:人们也能创造出一整个新的概念。我们通过给测试者展示从1到10的外语字母并让测试者快速地创造一种看起来属于上述字母的新的字符(见图7A)。BPL模型可以通过在种类级别上进行无参优化来获得这一能力,即重复利用从例子字符中笔画来生成文体上一致的新字符(见补充材料第7部分)。在一个图灵视觉测试中比较人类与BPL(117个比较),观测一系列的格式显示在图7A的i和iii。判断的识别级别仅有49%(见图6B,来自种类的新概念),这与chance
[t(34)=0.45,P>0.05]没有显著不同。个别的,只有35个判断中的8个识别级别显然高于chance。相较之,缺少了“学着学习”的模型通过分开的图灵视觉测试判断识别级别为69%,并且很容易发现这比BPL差(25个判断中18个超过了chance)。在S6部分更进一步的比较中显示,模型产生貌似可信的奇怪字符而不是一致文体本身的能力,是通过测试的重要因素。我们还发现在这一任务中人类和BPL模型的个别比较有更多的不同,比如反映在他们的识别级别方面:在图6B所有其他的实验中,35个判断中有10个单个识别级别显著低于chance;反过来,BPL只有两个低于chance的识别级别。
最后,通过一个特殊的字符表不受约束地创造格式完全自由的奇特字符概念来对比人类和BPL模型进行判断(124个),见图7B。从BPL的字符类型P(Ψ)取得优先分布,这样的平均识别级别为57%的正确率(32个判断里面有11个高于chance);在图6B中,无参数之前多次利用背景字符推断出的结果,BPL达到了51%的识别级别(见图7B,不受用约束的新概念),识别级别与chance t(24)=0.497,P>0.05,25个判断中2个高于chance无显著区别。缺陷型分析显示“语义分析”(68%,22个里面有15个高于chance)和“学着学习”(64%,45个里面有22个高于chance)在通过此次测试中都非常的重要。
讨论
尽管人工智能有所进步,但是人类在学习新的概念方面仍比机器强很多:人类只需要很少的例子就可以学到并将之运用到更丰富的地方。我们的工作表明“语义合成性”、“因果性”、“学着学习”在缩小这段差距上至关重要。机器学习和计算机视觉的研究者们开始探索基于简单过程归纳的方法,而我们的结果显示通过本文的方法以其更具创造力的能力可以精确得达到人类级别的单目标识别任务并且能 大多数图灵视觉测试。对于每个图灵视觉测试少于25%的判断者表现明显优于chance。
虽然BPL在这些任务上成功了,但是它在视觉概念上仍然比人类差一些。它缺乏明确的平行线知识、对称性、可选要素,比如“7”中的相交线,以及一条笔画末与另外一条的连接处。此外,人类用在别的地方学到的能力来扩展这里学到的这个概念,包括做计划、解释含义、交流和概念比较。概率程序可以获得这些概念学习的更丰富的方面并且进一步使用,但是需要比这里更约束、更复杂的结构来实现。更精细的程序还可以适合于学习超出许多简单的感知策略的创作性、因果性的表现。例子包括如工具、车辆、家具等通过局部、关系和这些结构所支持的功能来描述的物理赝像;如河流、树等重复出现但是简单生成的过程的不规则碎片结构;甚至是如自然数、自然语言语义和直观的物理知识等总结性的知识。
我们通过手写字体来了解人类怎样达到这种程度的概念学习,这是一个长期的目标。近期,将我们的方法运用于其他符号概念的学习中非常有前景。人类文明产生了许多这样的符号系统,包括手势、舞蹈动作以及其他话语和记号语言。正如字符一样,这些概念可以通过对一个或者几个例子的扩展进行学习,甚至是对于一些符号意义并不明确的也是,如看到“竖起拇指”、“顶拳(first bump一种打招呼方式)”、“击掌”,或者是第一次听到“Boutros Boutros-Ghali”、“Kofi Annan”、“Ban Ki-moon”这些名字。根据有限的经验,人类可以识别新的例子并且甚至能产生与这个概念相类似的新概念。BPL的组合性、因果性和学着学习的原则可以帮助解释这一成因。
为了举例说明BPL是如何运用到演讲领域的,讲话程序通过组合音位(字部分)系统地形成音节(部分)来进一步组合成词素和整个单词。给出一个单词中总结性的音节-音位解析,真实的演讲可以通过一个获取了自动接合演讲的因果模型来生成。这些部分和子部分元素通过语言中的单词而共享,使得孩子们能够从长期的“学着学习”的过程来获取这些知识。我们已经发现了一个利用“组合性”和“学着学习”不用“因果性”来获取人类的学习能力和说一门新语言的能力(比如让一个母语是英语的人说日语)。本着经典的对演讲认识和语言理解“综合分析”精神,下一步可能会实现一个用于讲话的因果性更强的模型。
虽然我们的工作是面向成年的学习者,但是它也提出了自然发展的问题。如果孩子们学习书写需要基于与BPl相似结构的方法,那么本文的模型可以帮助解释孩子们怎样找到字符的不同之处并且如何使得教育过程更加有效。将孩子们不同学习阶段的分解和生成行为与给出不同的背景经验的BPL模型相比较能够更好地评价模型的“学着学习”机制并提出改进。通过在那些在能够绘画和描述之前可以做到视觉分类的婴幼儿身上测试我们的分类任务,我们可以发现孩子们是否可以学着以一种基于他们自己的基本书写经验从而有更因果性和组合性来感知这些字符。因果表现在我们目前的BPL模型中是预配置的,但是可以想象能够通过在更深层次的模型层级上通过“学着学习”来将其建立起来。
最后,我们希望我们的工作可以阐明概念所代表的神经和更神经化模型的发展。补充的前馈视觉处理、预先行为学习和我们的结论表明人类学习新的手写字符一定程度上依靠推理总结运动程序而不依赖于(大脑皮层上)特定的发音部位和前运动皮层的活动。该程序是目前活跃于纯粹的概念任务中的一个代表。我们能否通过编码来实现与BPL相似的结构以代表在人们第一次感知和区分新字符的时候大脑中前运动皮层(或者其他运动区域)的图像部分。目前大型的脑域模型和深度周期神经网络也可以实现字符识别和产生的任务,但是确实需要从同一个概念的大量训练数据中学习到。我们发现对那些我们期待可能上升到像BPL那样通过合并“组合性”、“因果性”、“学着学习”的神经模型来说,这里的单目标识别学习能力仍旧是一个挑战。

满打满算写了一整天才弄出来,总算是补上了之前许下的诺。

评论 5
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值