如何再次提问?基于连续空间改写的生成式问句数据增广

点击蓝字

关注我们

AI TIME欢迎每一位AI爱好者的加入!

问句数据增广旨在自动生成上下文相关的问句增广数据,在机器阅读理解、问答、问句生成和问答式自然语言推理等任务上进一步提升模型性能。基于可控式文本改写的思想,讲者提出了一种新的问句数据增广方法称为CRQDA。该方法将问句数据增广任务看作是一个带限制的文本改写任务以生成上下文相关的可回答和不可回答问句。

刘大一恒:四川大学3+2+3本硕博连读生,师从吕建成教授。主要研究方向为自然语言生成、预训练语言模型和机器阅读理解。目前在ACL、EMNLP、AAAI、TASLP、IJCNN、TALLIP等期刊会议上以第一作者和共一作者发表论文13篇。担任ACL、AAAI、IJCAI、EMNLP、NAACL、EACL、TNNLS等期刊会议审稿人。

一、背景知识

1、数据增广是什么?

数据增广是一种常用的提升模型泛化能力的方法。相比旋转、剪裁等图像数据常用的数据增广方法,合成新的高质量且多样化的离散文本相对来说更加困难。

2、文本数据增广方法分类

第一类是通过直接对文本数据进行局部修改,如采用一些随机替换、删除、插入等操作修改原始数据以得到新的数据样本。

第二类则是利用生成的方式,通过回译、复述、使用预训练语言模型和各类生成模型如VAE,GAN等生成新的训练数据。

3、什么是问句数据增广?

文本数据增广技术被应用到文本分类和机器翻译等任务,而问句数据增广则是文本数据增广中的一类技术,它主要为机器阅读理解、问句生成、问答式自然语言推理等任务对问句数据进行增广,生成额外的成对数据。

例1:如左图所示机器阅读理解要求模型在给定的段落中找到问句的答案片段。

例2:如右图所示, 给定问句和相关段落中的句子,QNLI要求模型推断该句子是否包含问题的答案。  

由于上述任务需要模型对问题-段落对进行推理,因此,使用现有文本

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值