论文笔记 | Adversarial Examples for Evaluating Reading Comprehension Systems

最新推荐文章于 2021-06-25 13:38:58 发布

期待成功

最新推荐文章于 2021-06-25 13:38:58 发布

阅读量741

点赞数 1

文章标签：自然语言处理 pytorch 深度学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/u011150266/article/details/117822379

版权

作者：孙嘉伟

单位：燕山大学

文章目录

前言
一、解决的问题
二、对抗数据生成方法
三、实验分析

前言

这是一篇比较经典的论文，发表在EMNLP2017上面，可以说是文本对抗领域的开山之作，作者是Percy Liang 和Robin Jia。

论文地址：https://arxiv.org/pdf/1707.07328.pdf

代码地址：https://github.com/robinjia/adversarial-squad

一、解决的问题

文章所研究的问题是：阅读理解模型容易受到对抗样本的攻击。使用的数据集是经典的SQuAD1.0数据集。

首先介绍一下SQuAD数据集，SQuAD数据集可以概括为<q,c,a>三元组的集合。其中q是提问的问题；c是文本内容；a是问题对应的答案，是c中的一个片段。模型需要对文本内容c进行理解来回答问题q。而a就是<q,c>所对应的有监督训练标签。
“容易受到对抗样本的攻击”可能说起来有些抽象，我们以下边的例子来说明阅读理解模型是如何被攻击的：

在这里插入图片描述

在上图中，黑色字体为原文本中的内容,蓝色字体为根据文本内容所产生的的干扰片段(adversarial distracting sentence)。在加入干扰片段后，我们人类可以判断出，问题所对应的答案并不会产生改变，但阅读理解模型的回答却由原来的John Elway(绿色字体)变为了Jeff Dean(红色字体)。

那最核心的要点来了!如何生成这个干扰性的片段呢？

二、对抗数据生成方法

以addSent数据集为例,addSent的生成由四个步骤组成。图片和文字结合观看更容易理解一些。

在这里插入图片描述

使用WordNet中的反义词替换名词和形容词，使用在预训练词向量GloVe中词性相近的词替换原文中的实体词和数字。问题中的大部分信息由于和问题具有高度的重合性，可以干扰模型对问题的判断。
生成假答案。和1中替换仅实体词和数字词的目的相同，这一步是为了不改变插入扰动前后问题、文章所对应的真实答案。
第三步就是组合工作了，这一步需要将第一第二步生成的结果拼接起来形成最终的干扰片段。这一步会将第一步生成的问题句子和第二步的结果转变为陈述性的句子。它的转换规则类似：

最低0.47元/天解锁文章

关注

1
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
论文笔记 | Adversarial Examples for Evaluating Reading Comprehension Systems

作者：孙嘉伟单位：燕山大学文章目录前言一、解决的问题二、对抗数据生成方法前言这是一篇比较经典的论文，发表在EMNLP2017上面，可以说是文本对抗领域的开山之作，作者是Percy Liang 和Robin Jia。论文地址：https://arxiv.org/pdf/1707.07328.pdf代码地址：https://github.com/robinjia/adversarial-squad一、解决的问题文章所研究的问题是：阅读理解模型容易受到对抗样本的攻击。使用的数据集是经典的S
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。