论文阅读-FASPell: A Fast, Adaptable, Simple, Powerful Chinese Spell Checker Based

来源:爱奇艺 EMNLP2019 Workshop

论文:https://aclanthology.org/D19-5522.pdf

代码:GitHub - iqiyi/FASPell: 2019-SOTA简繁中文拼写检查工具:FASPell Chinese Spell Checker (Chinese Spell Check / 中文拼写检错 / 中文拼写纠错 / 中文拼写检查)

目录

模型结构

1. 基于bert掩码语言模型的微调

2. 基于汉字相似度的解码器

汉字相似度

 实验结果


模型结构

1. 基于bert掩码语言模型的微调

利用训练语料(错误-正确句子对),微调bert

  • 对于无错误的句子和bert一样构造数据,即选出15%的tokens预测,80%用[Mask]替换,10%用保持不变,10%用随机token替换
  • 对于有错误的句子,有错误的位置为需要预测的位置,标签是对应正确的token;为了防止过拟合,另外再选择相同数量的无错的位置进行预测。

2. 基于汉字相似度的解码器

汉字相似度

字形相似度(相比使用汉字图片,以下方法考虑到了笔画顺序,汉字结构之类)。考虑到复杂度,这里仅仅使用序列的信息,而不是使用树形结构信息(漢字データベースプロジェクト

发音相似度: 1减去标准化的拼音编辑距离

在解码阶段,原有的方法是对多个特征设置不同的权重。论文同时利用bert预测的置信度和汉字之间的相似度进行解码。

首先基于训练集绘制原字-候选字相似度和bert置信度的散点图,画出能将检测错误,纠正错误与纠正正确分开的曲线。

横坐标是bert的置信度,纵坐标是汉字的相似度

最后选择的时候根据这个曲线进行选择。

这个曲线是要手工调整的,其实就是在解码的时候,综合考虑字的相似度以及bert预测的输出概率

 可实现在召回率损失不大的基础上,提高准确率

 实验结果

 

——FT代表去掉微调

——CSD代表去掉基于汉字相似度的解码器

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

旺旺棒棒冰

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值