关键词:英语、GEC、
研究动机:
大部分纠错是 针对ESL(英语作为第二语言的人群),然而对于英语作为母语的人群而言可能不太好用(也就是出现错误比较少)。
背景知识:
supervised contrastive learning (CL) 【SimCLR】:这使得模型可以通过将正样本的特征与负样本的距离更近来学习鉴别特征。
大致思路:
利用CL实现目的:增加模型产生正确纠错的概率 和 降低产生错误纠错的概率。这里主要对loss和负样本采样做了工作。
loss函数:
● negative log likelihood (NLL) loss 增加正确纠错概率【最大化此概率】
● margin-based CL loss【拉大正确纠错与错误纠错的差距】
负样本的产生:
● 第一种负样本是由GEC模型在波束搜索过程中以高概率产生的错误校正组成的
● 第二类负样本由来自数据集的错误句子组成。
loss函数
GEC
t:target(正确句) ; s:source(错句)
最佳的target 利用beam search得到。
加入对比学习
三个步骤:训练(目前有的大量数据集,高错误密度数据集)+构建负样本+预训练(低错误密度数据集上)
负采样方法
- 第一种负样本是由GEC模型在Beam Search过程中除了最佳的那个,其余作为负样本【这样的负样本才有区分的难度】
- 第二类负样本由来自数据集的错误句子组成,也就是<S,S>
实验
model——seq2seq架构(还是比较适合用对比学习的)
- GEC-PD (基于Transformer)
- GEC-BART(BART-large)
结果:
整体来说,是CL的效果更好,准确率高。
错误细分的话:OE和IE相较来说CL普遍更好;其中对于IE(ignore Error)的处理效果更明显。