《PLOME: Pre-training with Misspelled Knowledgefor Chinese Spelling Correction》
ACL2021
链接:https://aclanthology.org/2021.acl-long.233.pdf
摘要
使用错误拼写知识的预训练掩码语言模型。
核心思想 :
- 使用来自混淆集(confusion set)的相似字符做mask,替代BERT中的[MASK],更好地做字符预测。
- 使用GRU网络,利用拼音与笔画,学习字符之间的发音与字形相似度。
SOTA.
结论
- 第一个面向CSC这一特定任务的语言模型。
- 基于混淆集的掩码策略,可以联合学习语义和拼写错误的知识。
- 使用语音和字形GRU网络,模拟这些语音、字形方面特征。
- 第一个通过联合考虑目标语音和字符分布进行决策的模型。
-
PLOME的性能明显优于所有对比模型。
介绍
中文拼写错误主要有字音与字形错误,其中83%的错误中存在发音错误,48%的错误存在字形错误。
处理CSC(Chinese spelling correction)任务的几个重要分支
- 语言模型
- BERT
- 由于大部分bert不是面向特定任务知识的,效果次佳。
与FASPell的对比
FASPell也融合了字音与字形,但是相似度衡量用的是制定的计算规则(编辑距离)
而PLOME的想法是↓
PLOME简介
- 基于confusion set里的相似字符对句子做mask,让模型在预训练时能够共同学习到语义和拼错知识。
- 每个字符的笔画、语音作为输入,让PLOME对任意字符间的相似性进行建模。
- 联合目标语音和字符,学习错误知识
方法
总体仍然为:pre-training & fine-tuning