论文笔记(5.13,文本抗击,sentence)--Trick Me If You Can: Human-in-the-Loop Generation of Adversarial Examples

举行了一次人机对战比赛,基于Quizbowl问答任务,通过实验对比了多种传统模型的鲁棒性能,分析了传统模型对于理解性任务的局限现象的产生原因,以及人机互补的概念。

paper的价值主要在于:
1.通过human-in-loop的方式生成高质量的问答对抗样本
2.对传统问答模型的鲁棒性能进行剖析

实验结果

1.RNN相较于IR更加脆弱

在这里插入图片描述
基于RNN的问答系统更加容易受到语法语义上的干扰;IR系统则对一些特定的单词更加敏感

2.人类和模型能力互补

在这里插入图片描述
在前半段问题里,机器效果优于人类,而到后半场随着透露的信息越来越多,人类表现反超机器(推理能力更强)

Adversarially Authored Questions的特点

相较于传统数据集,Adversarially Authored Questions有以下特点:

  • 更少的训练数量
  • 问题的答案出现位置更加随机
  • limited overlap
  • NEs (更短更少的命名实体)
    在这里插入图片描述

问答低鲁棒原因剖析

1.推理能力

  • 显式线索远距离联系能力
  • 蕴含在上下文中的计算(逻辑&代数)
  • 多跳推理能力

2.干扰线索

  • 句意改变
  • 误导answer的类型
  • 新的线索引入
  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值