独家 | 混乱的句子表明AI仍然不能真正理解语言-CSDN博客

本文链接：https://blog.csdn.net/tMb8Z9Vdm66wH68VX1/article/details/114557619

最新研究表明，尽管AI在GLUE评测上表现出色，但在处理打乱顺序的句子时仍显不足，揭示了当前自然语言处理技术的局限性。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

作者：Will Douglas Heaven

翻译：王可汗

校对：和中华

本文约1200字，建议阅读8分钟

最新的研究结果表示，自然语言处理尽管在GLUE上取得好成绩，但仍然无法达到真正理解自然语言。

许多看起来能理解语言并且在一组常见的理解任务中比人类得分更高的人工智能模型，都没有注意到句子中的单词被混淆了，这表明它们根本就不懂语言。问题源于这些自然语言处理(NLP)系统的训练方式，不过这也指出了一种改进方法。

阿拉巴马州奥本大学(Auburn University)和奥多比研究中心(Adobe Research)的研究人员在试图让一个自然语言处理系统对其行为产生解释时发现了这个漏洞，比如为什么它声称不同的句子意味着同一件事。当测试他们的方法时，他们意识到在一个句子中打乱单词对解释没有影响。作为这项工作的领导者，奥本大学的Anh Nguyen说，“这是所有NLP模型的普遍问题。”

该团队研究了几个基于BERT(谷歌开发的语言模型，支撑了包括GPT-3在内的许多最新系统)的最先进的自然语言处理系统。所有这些系统在GLUE(通用语言理解评估)上的得分都高于人类。GLUE是一套用来测试语言理解能力的标准任务，比如发现释义，判断句子是否表达了积极或消极的情绪，以及文字推理。

人咬狗：他们发现，当句子中的单词打乱时，这些系统无法辨别，甚至当新顺序改变了意思时。例如，系统正确地识别出“大麻会导致癌症吗？”和“吸食大麻如何导致您患上肺癌？”属于释义。但他们更确定“你吸烟致癌，大麻如何能给肺？”和“吸大麻能给肺怎么你癌症?”意思也是一样的。系统对那些意义相反的句子——比如“大麻会致癌吗？”和“癌症会导致吸食大麻吗？判定为同样的意思。

唯一一个与词序有关的任务是让模型检查一个句子的语法结构。其他任务下，测试系统75%到90%的答案在单词被打乱时没有变化。

这是怎么了呢？这些模型似乎是从一个句子中挑出几个关键词，而不管它们的顺序是什么。他们不像我们人类一样能理解语言，并且，GLUE——一个非常流行的基准——也不能衡量真正的语言使用。在许多情况下，用于训练模型的任务并不强迫它关心词序或语法。换句话说，GLUE教会了NLP模型跳读。

许多研究人员已经开始使用一套更硬核的测试，称为超级GLUE，但Nguyen怀疑它会有类似的问题。

Yoshua Bengio和他的同事也发现了这个问题，他们发现，在对话中对单词进行重新排序有时并不会改变聊天机器人的反应。Facebook的一个人工智能研究团队在中文上也发现了这种情况。Nguyen的团队表明，这个问题很普遍。