中文文本纠错论文解读——Adaptable Filtering using Hierarchical Embeddings for Chinese Spell Check

原始论文:https://arxiv.org/abs/2008.12281

1.纠错整体流程

本文的纠错结构比较简单,如下图,利用bert对一个包含错误句子中的每一个词进行预测,然后利用过滤器对结果进行过滤,由于“五”和“一”不存在任何音似或形似的地方,所以“一”的位置不进行修改,这就是本文纠错的思路,非常简单吧

                    

2.Head Filt 过滤器

本文的亮点就在于过滤器上,本文的过滤器实际上就是一个混淆集,只不过与之前的固定混淆集不同,本文的混淆集能够通过相似的笔画和初始混淆集进行自动扩展。比如下面这幅图中的例子,如果给定初始的混淆二元组(無,吾),由于“無”和“舞”笔画相近,通过本文的方法就能够学习到(舞,吾)也是易混淆的二元组。所以本文就是做了一个扩展这个混淆集的工作

                                                            

3.如何扩展混淆集?

如右下角所示,每个字都由一定的笔画组成,每一个笔画有一个向量表示,然后共同组成了字,那么字的向量可以通过笔画的向量得到,那么笔画的向量如何得到字的向量了,这里方法其实很多,作者采用TreeLSTM的方法获得,关于TreeLSTM具体可以参考论文https://arxiv.org/abs/1503.00075。然后通过两个字的向量就可以计算两个字的相似性了。

模型的训练细节如下:

  • TreeLSTM模型的训练就是使得相似的字得分接近1,不相似的字得分接近0

  • TreeLSTM模型训练的正样本为: 1.初始混淆集(可以认为是公开的混淆集)中的相似的字符;2.平行错误训练数据中的相似字符。负样本为:初始混淆集中不相似的字符。

  • TreeLSTM模型训练时,首先使用初始混淆集中正负样本进行训练,然后使用训练数据中的正样本进行训练,这样能够通过训练数据对原始混淆集进行扩展

                    

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值