复旦大学汪励颢：基于对抗样本的语法纠错研究

AITIME论道

于 2020-12-01 19:18:43 发布

阅读量1.1k

点赞数 1

文章标签：算法机器学习深度学习人工智能自然语言处理

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/AITIME_HY/article/details/110459375

版权

本文探讨了基于对抗样本的语法纠错研究，针对语法纠错任务中数据稀缺和模型脆弱的问题，提出了一种对抗攻击算法，用于生成高质量的对抗样本进行数据增强。实验表明，这种方法能有效提升模型的泛化性和鲁棒性。

摘要由CSDN通过智能技术生成

⬆⬆⬆ 点击蓝字

关注我们

AI TIME欢迎每一位AI爱好者的加入！

语法纠错任务，即Grammatical Error Correction（简称，GEC）被广泛地应用于文本编辑、搜索、抽取中，但语法纠错任务仍然面临样本不足，模型易受攻击等问题。讲者将从文本对抗攻击角度出发，提出了一种适用于GEC任务的对抗攻击算法，以产生高质量的对抗样本来进行数据增强。实验证明了，生成的对抗样本，既能增强模型的泛化性，也能增强模型的鲁棒性。

本期AI TIME PhD直播间，我们有幸邀请到复旦大学研究生汪励颢为我们进行分享，本次分享的主题是——基于对抗样本的语法纠错研究。

汪励颢：复旦大学自然语言处理组2019级在读研究生，导师郑骁庆副教授和黄萱菁教授，研究方向为语法纠错。

一、 使用对抗样本方式对语法纠错任务进行数据增强的原因

语法纠错任务可以改正文本中各种各样的语法错误。

通常，语法改错主要有三个级别的错误：

第一个级别：字符级别错误，主要是拼写、标点等类型的错误；

第二个级别：词级别的错误，比如词的时态语态、单复数，或者一些词的选择；

第三个级别：一般认为是词组级别或者句子级别的一些错误，包括词序、搭配不当等错误。

讲者强调，GEC任务的研究主要关注在第二和第三级别错误，也就是词级别和句子级别的错误。一种主流做法是，把它当作低资源的同语料机器翻译任务，输入是具有语法错误的句子，输出是一个没有语法错误的句子，使其通过翻译的方式完成语法纠错任务。

那么，GEC任务也同样可以使用sequence to sequence的框架进行处理。但相比单纯的机器翻译任务，GEC主要存在两点区别：

第一个区别：GEC处理的句子相比机器翻译，对句子的改动是很少的，句子中可能零星的几个地方犯有错误，修正以后，句子没有大的变化，许多词语得以保留，故一些研究引入copy机制来适配这个任务；

第二个区别：GEC任务的语料是非常稀缺的。目前官方给出的语料大约是70万个句子，这对于一些

最低0.47元/天解锁文章

关注

1
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
复旦大学汪励颢：基于对抗样本的语法纠错研究

⬆⬆⬆ 点击蓝字关注我们AI TIME欢迎每一位AI爱好者的加入！语法纠错任务，即Grammatical Error Correction（简称，GEC）被广泛...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。