FASPell(EMNLP2019)
背景
目前方法存在的问题:
- 过拟合匮乏的中文拼写错误数据集
- 依赖存在缺陷且不灵活的混淆集判断相似性
本文贡献:
- 提出一个用于CSC的新框架:DAE-decoder
- 提出一种更精确的描述单词相似性的方法
- 提出一个实践有效的解码方案提高召回
关于标题:
- Fast
- Adaptable
- Simple
- Powerful
主要方法
结构图
DAE部分
鉴于MLM预训练模型的兴起,自然地采用其作为DAE部分,文章使用基础的Bert作为编码器;
训练阶段与Bert的MLM类似:
- 无错误文本:采用Bert原始的MLM方案;
- 有错误文本:
- 将错误单词Mask处理
- 随机Mask无错单词预防过拟合
decoder部分
简单说,采用编辑距离来衡量DAE输出的候选项;
数据集
采用Kanji Database Project和Uni- han Database数据集获取单词的字形与字音信息;
相似度
具体方案参考原文,使用IDS与CJK语言发音作为字符串形式计算编辑距离;
筛选方案
从训练集学习出曲线保证检对且纠对的召回率;将曲线用于测试集筛选
实验结果
- 实验配置如下,具体参考原文
- 最终实验结果,接近SOTA指标,但解码更加快速;
- 速度比较结果
结论
相较于先前方法:
- 因为基于预训练模型,所需训练数据较少;
- 不再受限于混淆集;
讨论
考虑端到端
decoder部分学习曲线利用信息不充分(未同时考虑语音与字形)