独家 | 混乱的句子表明AI仍然不能真正理解语言

作者:Will Douglas Heaven

翻译:王可汗

校对:和中华

本文约1200字,建议阅读8分钟

最新的研究结果表示,自然语言处理尽管在GLUE上取得好成绩,但仍然无法达到真正理解自然语言。

许多看起来能理解语言并且在一组常见的理解任务中比人类得分更高的人工智能模型,都没有注意到句子中的单词被混淆了,这表明它们根本就不懂语言。问题源于这些自然语言处理(NLP)系统的训练方式,不过这也指出了一种改进方法。

 

阿拉巴马州奥本大学(Auburn University)和奥多比研究中心(Adobe Research)的研究人员在试图让一个自然语言处理系统对其行为产生解释时发现了这个漏洞,比如为什么它声称不同的句子意味着同一件事。当测试他们的方法时,他们意识到在一个句子中打乱单词对解释没有影响。作为这项工作的领导者,奥本大学的Anh Nguyen说,“这是所有NLP模型的普遍问题。”

 

该团队研究了几个基于BERT(谷歌开发的语言模型,支撑了包括GPT-3在内的许多最新系统)的最先进的自然语言处理系统。所有这些系统在GLUE(通用语言理解评估)上的得分都高于人类。GLUE是一套用来测试语言理解能力的标准任务,比如发现释义,判断句子是否表达了积极或消极的情绪,以及文字推理。

 

人咬狗:他们发现,当句子中的单词打乱时,这些系统无法辨别,甚至当新顺序改变了意思时。例如,系统正确地识别出“大麻会导致癌症吗?”和“吸食大麻如何导致您患上肺癌?”属于释义。但他们更确定“你吸烟致癌,大麻如何能给肺?”和“吸大麻能给肺怎么你癌症?”意思也是一样的。系统对那些意义相反的句子——比如“大麻会致癌吗?”和“癌症会导致吸食大麻吗?判定为同样的意思。

 

唯一一个与词序有关的任务是让模型检查一个句子的语法结构。其他任务下,测试系统75%到90%的答案在单词被打乱时没有变化。

 

这是怎么了呢?这些模型似乎是从一个句子中挑出几个关键词,而不管它们的顺序是什么。他们不像我们人类一样能理解语言,并且,GLUE——一个非常流行的基准——也不能衡量真正的语言使用。在许多情况下,用于训练模型的任务并不强迫它关心词序或语法。换句话说,GLUE教会了NLP模型跳读。

 

许多研究人员已经开始使用一套更硬核的测试,称为超级GLUE,但Nguyen怀疑它会有类似的问题。

 

Yoshua Bengio和他的同事也发现了这个问题,他们发现,在对话中对单词进行重新排序有时并不会改变聊天机器人的反应。Facebook的一个人工智能研究团队在中文上也发现了这种情况。Nguyen的团队表明,这个问题很普遍。

 

这个问题严重吗?这取决于应用程序。一方面,如果人工智能能像人类一样,在你打错字或说错话时仍然能理解,那将是很有用的。但总的来说,在分析句子的意思时,词序是至关重要的。

 

如何解决呢?好消息是,解决这个问题可能不是太难。研究人员发现,通过训练模型去做一个词序重要的任务(比如发现语法错误),迫使模型专注于词序,也能让模型在其他任务中表现得更好。这表明,调整训练模型的任务将使它们整体表现得更好。

 

Nguyen的研究结果再次表明模型往往远达不到人们所认为的能力。他认为,这凸显了让人工智能像人类一样理解和推理是多么困难。Nguyen说,“没人知道怎么做。”

原文标题:

Jumbled-up sentences show that AIs still don’t really understand language

原文链接:

https://www.technologyreview.com/2021/01/12/1016031/jumbled-up-sentences-ai-doesnt-understand-language-nlp-bert-fix/

编辑:黄继彦

校对:林亦霖

译者简介

王可汗,清华大学机械工程系直博生在读。曾经有着物理专业的知识背景,研究生期间对数据科学产生浓厚兴趣,对机器学习AI充满好奇。期待着在科研道路上,人工智能与机械工程、计算物理碰撞出别样的火花。希望结交朋友分享更多数据科学的故事,用数据科学的思维看待世界。

翻译组招募信息

工作内容:需要一颗细致的心,将选取好的外文文章翻译成流畅的中文。如果你是数据科学/统计学/计算机类的留学生,或在海外从事相关工作,或对自己外语水平有信心的朋友欢迎加入翻译小组。

你能得到:定期的翻译培训提高志愿者的翻译水平,提高对于数据科学前沿的认知,海外的朋友可以和国内技术应用发展保持联系,THU数据派产学研的背景为志愿者带来好的发展机遇。

其他福利:来自于名企的数据科学工作者,北大清华以及海外等名校学生他们都将成为你在翻译小组的伙伴。

点击文末“阅读原文”加入数据派团队~

转载须知

如需转载,请在开篇显著位置注明作者和出处(转自:数据派ID:DatapiTHU),并在文章结尾放置数据派醒目二维码。有原创标识文章,请发送【文章名称-待授权公众号名称及ID】至联系邮箱,申请白名单授权并按要求编辑。

发布后请将链接反馈至联系邮箱(见下方)。未经许可的转载以及改编者,我们将依法追究其法律责任。

点击“阅读原文”拥抱组织

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值