来自艾伦人工智能研究所的一组研究人员并没有放弃将Winograd模式作为一种理解的测试,而是决定尝试解决其中的一些问题。2019年,他们创建了WinoGrande,一个更大的Winograd模式集。WinoGrande没有几百个例子,而是包含了高达44000个句子。为了获得这么多的例子,研究人员求助于亚马逊Mechanical Turk,一个流行的众包工作平台。每个(人类)工人被要求写几对句子,并有一些限制条件,以确保收集的句子包含不同的主题,尽管现在每对句子的差异可能超过一个词。
然后,研究人员试图通过对每个句子应用相对不复杂的人工智能方法来消除那些可能允许统计捷径的句子,并丢弃那些太容易解决的句子。正如预期的那样,剩下的句子对机器来说是一个比原来的Winograd模式集更难的挑战。虽然人类的得分仍然很高,但在原始句子集上与人类表现相当的神经网络语言模型在WinoGrande句子集上的得分却低得多。这个新的挑战似乎可以挽回Winograd模式作为常识性理解的测试--只要对句子进行仔细的筛选,确保它们不受谷歌的影响。
然而,另一个惊喜正在酝酿之中。在WinoGrande文集出版后的近两年时间里,神经网络语言模型已经越来越大,而且它们越大,似乎在这个新的挑战中得分越高。在写这篇文章的时候,目前最好的程序--它们在TB级的文本上进行了训练,然后在成千上万的WinoGrande例子上进一步训练--获得了接近90%的正确率(人类获得了大约94%的正确率)。这种性能的提高几乎完全是由于神经网络语言模型及其训练数据的规模扩大所致。
理解语言需要理解世界,而只接触语言的机器无法获得这种理解。
这些越来越大的网络是否最终达到了人类的常识性理解?同样,这也是不可能的。WinoGrande的结果有一些重要的注意事项。例如,由于这些句子依靠的是亚马逊Mechanical Turk的工人,写作的质量和连贯性相当不平衡。另外,用于剔除 "非谷歌认证 "句子的 "不成熟 "的人工智能方法可能太不成熟,无法发现一个巨大的神经网络所能使用的所有可能的统计捷径,而且它只适用于个别句子,所以剩下的一些句子最终失去了 "双胞胎"。一项后续研究表明,只对双胞胎句子进行测试的神经网络语言模型--并且要求在这两个句子上都正确--其准确度远远低于人类,这表明早先90%的结果并不像看上去那么重要。
理解语言需要理解世界,而只接触语言的机器无法获得这种理解
最新推荐文章于 2024-11-05 16:28:58 发布