爱奇艺开源FASPell项目
FASPell是中文拼写检查器,可完成对任何一种中文文本(简体中文文本; 繁体中文文本; 人类论文; OCR结果等)的拼写检查。
特点:只能解决错字场景,多字/少字/乱序场景不支持。
论文:FASPell: A Fast, Adaptable, Simple,
Powerful Chinese Spell CheckerBased On DAE-Decoder Paradigm
发表:Proceedings of the 2019 EMNLP
Workshop W-NUT
论文概述:
论文提出一个基于新范式的中文拼写检查器——FASPell。新的范式包括去噪自动编码器(DAE)和把握度-字符相似度解码器(CSD)。
新范式规避了两个以前的中文拼写检查模型的2个瓶颈:
第一,DAE通过利用无监督预训练方法(如BERT,XLNet,MASS等),减少了监督学习所需的中文拼写检查数据量(<10,000个句子)。
第二,解码器有助于消除困惑集的使用,因为它在灵活和充分地利用汉字相似性这一关键特征上的不足。
FASPell模型: