点击蓝字
关注我们
AI TIME欢迎每一位AI爱好者的加入!
问句数据增广旨在自动生成上下文相关的问句增广数据,在机器阅读理解、问答、问句生成和问答式自然语言推理等任务上进一步提升模型性能。基于可控式文本改写的思想,讲者提出了一种新的问句数据增广方法称为CRQDA。该方法将问句数据增广任务看作是一个带限制的文本改写任务以生成上下文相关的可回答和不可回答问句。
刘大一恒:四川大学3+2+3本硕博连读生,师从吕建成教授。主要研究方向为自然语言生成、预训练语言模型和机器阅读理解。目前在ACL、EMNLP、AAAI、TASLP、IJCNN、TALLIP等期刊会议上以第一作者和共一作者发表论文13篇。担任ACL、AAAI、IJCAI、EMNLP、NAACL、EACL、TNNLS等期刊会议审稿人。
一、背景知识
1、数据增广是什么?
数据增广是一种常用的提升模型泛化能力的方法。相比旋转、剪裁等图像数据常用的数据增广方法,合成新的高质量且多样化的离散文本相对来说更加困难。
2、文本数据增广方法分类
第一类是通过直接对文本数据进行局部修改,如采用一些随机替换、删除、插入等操作修改原始数据以得到新的数据样本。
第二类则是利用生成的方式,通过回译、复述、使用预训练语言模型和各类生成模型如VAE,GAN等生成新的训练数据。
3、什么是问句数据增广?
文本数据增广技术被应用到文本分类和机器翻译等任务,而问句数据增广则是文本数据增广中的一类技术,它主要为机器阅读理解、问句生成、问答式自然语言推理等任务对问句数据进行增广,生成额外的成对数据。
例1:如左图所示机器阅读理解要求模型在给定的段落中找到问句的答案片段。
例2:如右图所示, 给定问句和相关段落中的句子,QNLI要求模型推断该句子是否包含问题的答案。
由于上述任务需要模型对问题-段落对进行推理,因此,使用现有文本