理解语言需要理解世界,而只接触语言的机器无法获得这种理解

  来自艾伦人工智能研究所的一组研究人员并没有放弃将Winograd模式作为一种理解的测试,而是决定尝试解决其中的一些问题2019年,他们创建了WinoGrande一个更大的Winograd模式集。WinoGrande没有几百个例子而是包含了高达44000个句子为了获得这么多的例子研究人员求助于亚马逊Mechanical Turk一个流行的众包工作平台每个(人类)工人被要求写几对句子并有一些限制条件以确保收集的句子包含不同的主题尽管现在每对句子的差异可能超过一个词
  然后,研究人员试图通过对每个句子应用相对不复杂人工智能方法来消除那些可能允许统计捷径的句子并丢弃那些太容易解决的句子正如预期的那样剩下的句子对机器来说是一个比原来的Winograd模式集更难的挑战虽然人类的得分仍然很高但在原始句子集上与人类表现相当的神经网络语言模型在WinoGrande句子集上的得分却低得多。这个新的挑战似乎可以挽回Winograd模式作为常识性理解的测试--只要对句子进行仔细的筛选,确保它们不受谷歌的影响。
  然而,另一个惊喜正在酝酿之中。在WinoGrande文集出版后的近两年时间里,神经网络语言模型已经越来越大,而且它们越大,似乎在这个新的挑战中得分越高。在写这篇文章的时候,目前最好的程序--它们在TB级的文本上进行了训练,然后在成千上万的WinoGrande例子上进一步训练--获得了接近90%的正确率(人类获得了大约94%的正确率)。这种性能的提高几乎完全是由于神经网络语言模型及其训练数据的规模扩大所致。
  理解语言需要理解世界,而只接触语言的机器无法获得这种理解。
  这些越来越大的网络是否最终达到了人类的常识性理解?同样,这也是不可能的。WinoGrande的结果有一些重要的注意事项。例如,由于这些句子依靠的是亚马逊Mechanical Turk的工人,写作的质量和连贯性相当不平衡。另外,用于剔除 "非谷歌认证 "句子的 "不成熟 "的人工智能方法可能太不成熟,无法发现一个巨大的神经网络所能使用的所有可能的统计捷径,而且它只适用于个别句子,所以剩下的一些句子最终失去了 "双胞胎"。一项后续研究表明,只对双胞胎句子进行测试的神经网络语言模型--并且要求在这两个句子上都正确--其准确度远远低于人类,这表明早先90%的结果并不像看上去那么重要。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值