中文文本纠错论文解读——Adaptable Filtering using Hierarchical Embeddings for Chinese Spell Check

最新推荐文章于 2023-02-18 14:09:06 发布

馒头好不好

最新推荐文章于 2023-02-18 14:09:06 发布

阅读量430

点赞数 1

文章标签：自然语言处理

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/lichaobxd/article/details/108596623

版权

原始论文：https://arxiv.org/abs/2008.12281

1.纠错整体流程

本文的纠错结构比较简单，如下图，利用bert对一个包含错误句子中的每一个词进行预测，然后利用过滤器对结果进行过滤，由于“五”和“一”不存在任何音似或形似的地方，所以“一”的位置不进行修改，这就是本文纠错的思路，非常简单吧

2.Head Filt 过滤器

本文的亮点就在于过滤器上，本文的过滤器实际上就是一个混淆集，只不过与之前的固定混淆集不同，本文的混淆集能够通过相似的笔画和初始混淆集进行自动扩展。比如下面这幅图中的例子，如果给定初始的混淆二元组（無，吾），由于“無”和“舞”笔画相近，通过本文的方法就能够学习到（舞，吾）也是易混淆的二元组。所以本文就是做了一个扩展这个混淆集的工作

3.如何扩展混淆集？

如右下角所示，每个字都由一定的笔画组成，每一个笔画有一个向量表示，然后共同组成了字，那么字的向量可以通过笔画的向量得到，那么笔画的向量如何得到字的向量了，这里方法其实很多，作者采用TreeLSTM的方法获得，关于TreeLSTM具体可以参考论文https://arxiv.org/abs/1503.00075。然后通过两个字的向量就可以计算两个字的相似性了。

模型的训练细节如下：

TreeLSTM模型的训练就是使得相似的字得分接近1，不相似的字得分接近0
TreeLSTM模型训练的正样本为： 1.初始混淆集（可以认为是公开的混淆集）中的相似的字符；2.平行错误训练数据中的相似字符。负样本为：初始混淆集中不相似的字符。
TreeLSTM模型训练时，首先使用初始混淆集中正负样本进行训练，然后使用训练数据中的正样本进行训练，这样能够通过训练数据对原始混淆集进行扩展

馒头好不好

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
中文文本纠错论文解读——Adaptable Filtering using Hierarchical Embeddings for Chinese Spell Check

原始论文：https://arxiv.org/abs/2008.122811.纠错整体结果本文的纠错结构比较简单，如下图，利用bert对一个包含错误句子中的每一个词进行预测，然后利用过滤器对结果进行过滤，由于“五”和“一”不存在任何音似或形似的地方，所以“一”的位置不进行修改，这就是本文纠错的思路，非常简单吧 2.Head Filt 过滤器本文的亮点就在与过滤器上，本文的过滤器实际上就是一个混淆集，只不过与之前的固定混淆集不同，本文的混淆集能够通过相...
复制链接

扫一扫

馒头好不好 CSDN认证博客专家 CSDN认证企业博客

码龄5年

14: 原创

16万+: 周排名

220万+: 总排名

3万+: 访问

: 等级

548: 积分

3: 粉丝

32: 获赞

22: 评论

59: 收藏

私信

关注

热门文章

分类专栏

最新评论

logsumexp与路径概率
CSDN-Ada助手: 非常感谢博主分享关于logsumexp与路径概率的博客，我觉得这篇文章对于想深入理解该领域的读者来说非常有帮助。建议下一篇博客可以探讨一下路径概率的应用，例如在自然语言处理中的应用。相信这样的技术文章对其他用户也会很有帮助，期待你的下一篇文章。为了方便博主创作，提高生产力，CSDN上线了AI写作助手功能，就在创作编辑器右侧哦～（https://mp.csdn.net/edit?utm_source=blog_comment_recall ）诚邀您来加入测评，到此（https://activity.csdn.net/creatActivity?id=10450&utm_source=blog_comment_recall）发布测评文章即可获得「话题勋章」，同时还有机会拿定制奖牌。
tensorflow.data.Dataset中batch、shuffle、repeat作用及不同顺序的区别
是刃小木啦~: 写的很好，感谢
Python元组赋值顺序问题
料理码王: 记住了！！！！从左到右的顺序！！！！！！doudaigi！！！！！！！！！！！！！！！！！
pycorrector安装失败、kenlm安装失败，提示LINK : fatal error LNK1181: cannot open input file 'stdc++.lib'
Lexie971102: 编译c++代码时遇到了这个问题，按你说的做了还是报错
tensorflow源码编译whl安装文件
馒头好不好: 后面我就没用这个了，当时也没搞清楚原因。另外就发现使用conda安装的tensorflow就是带有intel mkl库的，如果使用pip安装的好像就没有

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。