复旦NLP组:大厂模型的鲁棒性进步了吗?

每天给你送来NLP技术干货!


来自:FudanNLP

9cb10e1f052485384ec281bb28ab441f.gif

又是一年315,消费者关心自身权益,科研人关心模型售后:大厂模型使用简单,但是用起来放心吗?鲁棒性够高吗?

716dcc98c1421410539b3f256af175f0.gif

585b65c174ba8451a66ddc71a6594665.png

业界自然语言处理API

c6ea51ff58c78bd62af8830433735659.gif

3e6f17aaa77409c01fd271ca25cdec98.png

Cloud Natural Language API 利用 Google 机器学习技术,从非结构化文本中提取实用信息

谷歌在 2016 年推出了云自然语言 API(Cloud Natural Language API),提供情感分析、实体识别、语义分析等功能;2017 年,亚马逊推出了 Amazon Comprehend 以支持命名实体识别和情感分析。顶尖高校也加入了自然语言处理工具集的开发,斯坦福大学 NLP 组开发的 Stanford Core NLP 支持多种语言(包括中文),能够实现分词、分句、词性标注、句法分析等许多常见的NLP任务;宾夕法尼亚大学的 NLTK(Natural Language Toolkit)是 NLP 研究领域常用的 Python 库,提供多种基本文本统计功能以及处理常见任务。

那么,这些大厂和高校提供的 API 和工具集的鲁棒性究竟如何呢?FudanNLP实验室的同学们在寒假加班加点,使用文本鲁棒性工具集 Textflint 进行了一番验证。

4a903996accb552f0e837f2fcd48008a.png

TextFlint 是复旦大学自然语言处理实验室开发的自然语言处理模型鲁棒性评测平台,其中涵盖 14 项 NLP 常见任务,囊括 80 余种数据变形方法,为模型鲁棒性评测及提升提供了一站式解决方案。

d78d654afc96a793dac17ec704b7b668.png

ABSA 任务鲁棒性

597a4d1c3ae54a7a7f7ccde8debeaa6e.gif

属性级情感分类(ABSA)任务为例,在检测鲁棒性时我们使用了三种数据变形方法:增加新的属性评价(AddDiff)、改变非目标属性的情感(RevNon)以及改变目标属性的情感(RevTgt),三种方法的示例如下表所示。

b9f666ec845835ceeb0ef9f53e078783.png

表1:文本变形示例

通过以上三种文本变形方法,我们检测了谷歌和微软 API 在处理 ABSA 任务时的鲁棒性,在SemEval 2014 数据集上的实验结果如下表所示。

95be41bb3e2d4f003e763bbef7478a66.png

表2:属性级情感分析任务鲁棒性检测结果

实验数据可以说是非常的 amazing ,每种文本变形方法都能让 API 的预测准确率大幅下降,在三种变形当中,RevNon 的杀伤力最强,这也说明了这些 API 在判断目标属性的情感倾向时,会错误地参考非目标属性的情感词。这种不鲁棒的因素在 Textflint 的考验之下原形毕露。

545a55829b56ebd6341bc1c907286d82.gif

3f78d14f641b1656e0d05a3b56eb34ce.png

NER 任务鲁棒性

4776ca86c2b7bb0173db8c4f0337515b.gif

如果说单独一个 ABSA 任务的鲁棒性分析并不能说明什么问题,实验室的同学们还针对大厂开放的词性标注、依存句法分析、篇章情感分析、命名实体识别等任务进行了大量测试。例如命名实体识别任务在五个 API 上进行了鲁棒性验证。验证中使用了五种变形方法,具体方法可以参考下表。

62cad784dfda798dd4603fd80aed1b98.png

表3:命名实体识别任务文本变形方法

这些变形看上去还挺无关痛痒的,也不会对我们的阅读造成什么影响。但是,模型会怎么表现呢?我们把五个 API 和工具集都拉来溜了一溜,结果如下表。

89b09765e592dabbcdff46552f0ae6c4.png

表4:命名实体识别任务鲁棒性检测结果

不出意外的是,五个模型的正确率都有不同程度的下降。其中,模型遇到含有类别歧义的实体变形时掉血最严重,正确率直接砍半,这也说明模型可能并不能很好地建模上下文语义,于是在面对带有类别歧义的实体时,模型就被带偏了。这样看来大厂的模型看起来仍需努力呀。

1785199595e62e5b7334910cdf80aaea.gif

0a3a5af4c20cd187f0493492e6812847.gif

1521fcd684367d28cf050da42ea9e23b.gif

06e32e4d033f8333b84ad52bbab8970b.png

Textflint2.0 正式发布,支持多种中文任务的鲁棒性检测

最后报告大家一下好消息, Textflint 全新升级了,新增支持多种中文任务的鲁棒性检测。实验室的同学们将 ACL2021 以及 EMNLP2021 相关任务的最新模型一网打尽,使用原文开源代码复现模型,并使用 Textflint 工具集验证了鲁棒性。欢迎大家访问 TextFlint 官网(点击阅读全文获取),网站上有彩蛋哦!对大家复现模型、攻占 EMNLP 有巨大帮助,大家一起来寻找啊。 


TextFlint官网点击阅读全文获取

03b3f254986ba869327adc824b2c0bbf.gif

责任编辑:窦士涵

最近文章

EMNLP 2022 和 COLING 2022,投哪个会议比较好?

一种全新易用的基于Word-Word关系的NER统一模型,刷新了14种数据集并达到新SoTA

阿里+北大 | 在梯度上做简单mask竟有如此的神奇效果


下载一:中文版!学习TensorFlow、PyTorch、机器学习、深度学习和数据结构五件套!  后台回复【五件套】
下载二:南大模式识别PPT  后台回复【南大模式识别】

投稿或交流学习,备注:昵称-学校(公司)-方向,进入DL&NLP交流群。

方向有很多:机器学习、深度学习,python,情感分析、意见挖掘、句法分析、机器翻译、人机对话、知识图谱、语音识别等。

96114117d3dfdfe9af48cf10f0b813bb.png

记得备注呦

整理不易,还望给个在看!
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值