IJCAI 2019 | How Well Do Machines Perform on IQ tests: a Comparison Study on a Large-Scale Dataset

自动IQ测试提供了一个可以整合字符和子字符两种方法的、理想的测试平台。因此,尽管不是十分适合用于测试机器的智能,它也为当前AI研究提供了一个优秀的评测基准。而且,现在的大多数的IQ测试数据也没有满足评测机器的目标。为了解决这些问题,作者构建了一个具有10K条数据的大型IQ测试问题集。

引言

随着AI研究的快速发展,AI测试基准越来越变成一个十分重要的任务,例如ImageNet和RoboCup等。这些基准不仅为不同不同的AI方法之间提供标准的对比,而且也大大地促进了AI的发展。IQ测试被广泛用于人的智商测试,一个自然的问题是能不能将IQ测试用于测试机器的智商。在该论文中,作者指出,虽然IQ测试没有十分适合于测试机器的智商,但是也为当前AI的发展提供了一个优秀的基础。主要有以下两个原因:
1)对于能更好地自动解决IQ测试的的机器,它需要整合AI里面很多前沿的领域,例如,知识表示和推理、机器学习、自然语言处理和图像理解。
2)在自动IQ测试,符号方法和子符号的方法都被证明了十分有效。
因此,它为整合这两个重要的AI研究路线提供了理想的测试平台。
过去的IQ测试里面,数据量都比较小,一般只有几百条;而且,很多时候它们只包含了一个类型,例如,数字序列等。为了解决上面提到的问题,作者从各种IQ测试里面收集了10K条问题。这些问题可以分为四个类别,分别为文字(verbal)、序列(sequence)、图表(diagram)和其他(other),如图1所示。
图1. 四种分类以及对应的数量
这四种类别的解释分别如下所示:
1)文字;在某些语境下面给出一些词,例如类比等,找到正确的词。
2)序列;给出关于数字的一些序列,同找出下一个数字或者丢失的某些数字
3)图表;按顺序给出一些图表,找到最适合的图表
其他;给出一个数学,逻辑或者常识问题,通过逻辑推理去解决它。
在该论文中,作者主要关注了文字和序列这两个分类。对于序列这个类别,作者考虑四种表示方法,包含了人工神经网络等。对于文字这个类别,包含了类比和分类这两个子类别。有些AI的方法可以直接用在IQ文字类别里面。例如,我们一些比较有名的词相似度计算方法,包含了Word2Vec,GloVe和ConceptNet等。尽管他们表现得比随机猜好,但是与人的平均水平还是有比较大的差距。

数据集

在当前的自动IQ研究中,一个重要的问题是现有的数据集都比较小,导致了从这些数据集得出的结论虽然有价值但是不具有代表性。作者收集了一个大规模的IQ测试数据集IO10K,包含了10000条测试问题,比之前的数据量大了40倍。这个收集的过程主要包含了4个步骤:1)提出;2)三轮的审查;3)赞同;4)标准化问题。
IQ10K包含了如下几个方面的属性:
1)规模;IQ10K包含了10007个问题,他们被划分为四个类别,分别为文字、序列、图表和其他。作者采用了XML去规范了这些问题。每个问题包含了五个标签,分别是Q(Question,问题)、O(Option,选项)、A(Answer,答案)、C(Category,类别)和H(Hint,解答问题时的提示)。
2)层次;四种主要的类别都能被再划分为子类别。每个子类别也包含了不同的种类的IQ问题。例如,文字这个类别可以细分为类比、分类、同义和反义等,如图1所示。
3)多样性;IQ10k里面的问题包含了各个领域各个来源的,因此它具有足够的多样性和代表性。
图2. 文字类别细分为四个子类别和样本示例

实验

对于IQ10K,选择评测方法主要考虑两个方面的内容:1)他们在现有的数据上面的性能表现;2)这些方法的代表性。
在该工作里面,作者邀请了25名志愿者参与到实验中,获得人在这些数据上面的表现。同时,也用随机猜的结果作为一个基线。
针对文字这个类别,我们选择了其中的子类别,类比(包括了单类别和双类别)和分类进行了实验,因为这两个子类别比较有代表性和在更吸引研究人员的注意力。
对于文字类比,从Word2Vec、GloVe中获得词向量后,使用权重限制(Weight Constraint)去作为指标。对于像“a is to b as c is to d”这一类的问题,那个通过如下公式进行选择最好的得分的候选词作为答案。

实验结果如图2所示。从实验结果,我们可以得知,尽管全部的方法的性能都大于随机猜的,它们依然低于人类给出的答案。ConceptNet优于其他的机器方法。
图3. 类比实验结果
对于文字分类,作者使用了358个问题进行评测,结果如图3所示。结论与图2的基本一致。人的表现胜过机器的方法;在这些机器方法里面,ConceptNet依然是表现最突出。
图4. 文字分类的结果

结论

该论文构建了一个大规模的IQ测试集,包含了超过10000条的问题,因此命名为IQ10K。作者测试了当前的AI模型在IQ10K上面的表现,发现都低于人类的水平。
IQ10K从另外一角度评测了AI的发展水平,对AI真实的能力的评测有助于我们了解客观世界和事物以及对他们的改进方向。



扫码识别关注,获取更多新鲜论文解读

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值