【关键问题】随着自然语言处理技术的快速发展,研究其中的鲁棒性问题变得日益重要。如果模型是不鲁棒的,在实际使用中就会存在很大的问题。对NLP鲁棒性的研究有利于学术界更加顺利地理解深度学习模型的运行原理,有助于其在工业界的实际应用。
近年来,针对NLP领域的鲁棒性研究不断涌现,研究者从数据集、表示、模型和评估等不同的角度,对NLP算法的鲁棒性问题开展了一些研究。在近日举行的EMNLP 2021论文预讲会中,复旦大学计算机学院张奇教授做特邀报告,详细介绍了NLP中的鲁棒性研究进展,智源社区对内容进行了整理。
预讲会回看链接:https://event.baai.ac.cn/activities/177
讲者简介:张奇,复旦大学计算科学技术学院教授、博士生导师。主要研究方向是自然语言处理和信息检索。以第一作者或通讯作者发表论文共100 余篇,被引用次数3000余次。获得WSDM最佳论文提名奖、COLING最佳论文提名奖。作为第二译者翻译专著《现代信息检索》。获得上海市科技进步二等奖、教育部科技进步二等奖、ACM 上海新星提名奖、IBM Faculty Award、中国中文信息学会钱伟长中文信息处理科学技术奖--汉王青年创新一等奖。
演讲者:张 奇
撰 稿:梁 子
审 校:戴一鸣
01
鲁棒性问题的缘起
什么是鲁棒性问题?为什么会有鲁棒性问题?以情感分析[1]为例,对于“Tasty burgers, and crispy fries.”这样一句话,使用BERT等模型可以提取整个句子的表示进行分类,甚至对某一个类别的情感评价也能得到不错的效果,但这种效果是否鲁棒呢?比如说,在模型评价用户对“Burgers”的情感时,究竟是“Tasty”在起作用,还是“Crispy”词在起作用?如果模型通过对Burgers描述之外的词汇判定用户对该词的评价情感,那么在实际使用中就会存在很大的问题。
因此,我们可以通过人工制造特殊样本的方式,来探究当下的模型是否存在这类问题。如上图所示,对于用户的一句评价,如果将一个句子中不同的目标实体给予不同的评价属性(如将Burgers的评价改为Terrible,将Fries的评价改为Soggy),或在原句的基础上添加一些额外的评价,那么模型的准确率将会出现巨大的下滑。
从实验数据可知,即使是BERT这种类型的模型,在这样的环境中准确率也仅有50%左右。由此可以看出对鲁棒性的研究可以更全面地判断模型的能力,对研究和应用都十分关键。
为清晰地讲解鲁棒性的问题,张奇教授从数据集、表示与模型、评估等NLP构建环节中存在的鲁棒性进行了介绍。下面依次介绍上述几个部分中可能存在的问题,之后基于这些问题张教授介绍了近期的一些工作。
02
NLP研究中出现的鲁棒性问题
1.数据集中的问题
数据是有监督机器学习算法的基础。近年来的研究也表明数据构建的方式将直接影响到算法的鲁棒性。以上图[2]为例,对于一个