复旦大学汪励颢:基于对抗样本的语法纠错研究

本文探讨了基于对抗样本的语法纠错研究,针对语法纠错任务中数据稀缺和模型脆弱的问题,提出了一种对抗攻击算法,用于生成高质量的对抗样本进行数据增强。实验表明,这种方法能有效提升模型的泛化性和鲁棒性。
摘要由CSDN通过智能技术生成

⬆⬆⬆              点击蓝字

关注我们

AI TIME欢迎每一位AI爱好者的加入!

语法纠错任务,即Grammatical Error Correction(简称,GEC)被广泛地应用于文本编辑、搜索、抽取中,但语法纠错任务仍然面临样本不足,模型易受攻击等问题。讲者将从文本对抗攻击角度出发,提出了一种适用于GEC任务的对抗攻击算法,以产生高质量的对抗样本来进行数据增强。实验证明了,生成的对抗样本,既能增强模型的泛化性,也能增强模型的鲁棒性。

本期AI TIME PhD直播间,我们有幸邀请到复旦大学研究生汪励颢为我们进行分享,本次分享的主题是——基于对抗样本的语法纠错研究。

汪励颢复旦大学自然语言处理组2019级在读研究生,导师郑骁庆副教授和黄萱菁教授,研究方向为语法纠错。

一、 使用对抗样本方式对语法纠错任务进行数据增强的原因

语法纠错任务可以改正文本中各种各样的语法错误。

通常,语法改错主要有三个级别的错误:

第一个级别:字符级别错误,主要是拼写、标点等类型的错误;

第二个级别:词级别的错误,比如词的时态语态、单复数,或者一些词的选择;

第三个级别:一般认为是词组级别或者句子级别的一些错误,包括词序、搭配不当等错误。

讲者强调,GEC任务的研究主要关注在第二和第三级别错误,也就是词级别和句子级别的错误。一种主流做法是,把它当作低资源的同语料机器翻译任务,输入是具有语法错误的句子,输出是一个没有语法错误的句子,使其通过翻译的方式完成语法纠错任务。

那么,GEC任务也同样可以使用sequence to sequence的框架进行处理。但相比单纯的机器翻译任务,GEC主要存在两点区别:

第一个区别:GEC处理的句子相比机器翻译,对句子的改动是很少的,句子中可能零星的几个地方犯有错误,修正以后,句子没有大的变化,许多词语得以保留,故一些研究引入copy机制来适配这个任务;

第二个区别:GEC任务的语料是非常稀缺的。目前官方给出的语料大约是70万个句子,这对于一些

  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值