《Domain-shift Conditioning using Adaptable Filtering …… for Robust Chinese Spell Check》阅读记录

最新推荐文章于 2023-04-10 16:53:21 发布

帅气的琳仔

最新推荐文章于 2023-04-10 16:53:21 发布

阅读量244

点赞数

分类专栏：论文阅读

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_42546799/article/details/118856557

版权

本文提出了一种使用分层字符嵌入的自适应过滤器，解决了中文拼写检查中的域偏移问题。通过这种方法，模型能够在不同领域、不同输入方式和个体文本中实现拼写检查的鲁棒性。实验表明，提出的HeadFilt模型在2014、2015年中文拼写检查Bake-off数据集上取得了最佳结果，尤其在罕见错误的检测和纠正上表现出色。

摘要由CSDN通过智能技术生成

《Domain-shift Conditioning using Adaptable Filtering via Hierarchical Embeddings for Robust Chinese Spell Check》

Accepted at IEEE/ACM TASLP. 2021.5.22

链接：https://arxiv.org/abs/2008.12281

摘要

拼写检查，处理有噪声的人工生成文本。

限制：字符数量多、错误分布稀疏，缺乏足够覆盖异构和偏移错误域的资源。

混淆集限制：大多数所使用的混淆集是固定的，不包括新的、偏移的错误域。

本文：提出可扩展的自适应过滤器。利用分层字符嵌入（1）消除手工制作混淆集的需要（2）解决与罕见错误相关的稀疏性问题。

在2014、2015的中文拼写检查Bake-off数据集上获得了SOTA结果

结论

提出了一种基于层次字符嵌入的中文拼写检查过滤模型。

HeadFilt的适应性使得所提出的模型能够适应来自不同领域的文本、使用不同输入方法编写的文本以及由不同个人编写的潜在文本。

介绍

背景

汉语字符较多（常见字多达一万个），错误稀少，语言资源较为稀疏。

无法充分覆盖异构和偏移的错误域：错误来自不同领域，带有错误的文本是打字还是手写，用户的人口、学历如何，都会导致偏移错误域。如：非母语学习者考试的文章，可能不能很好地推广到在社交平台写文本的母语者。

（CFS confusion set）

两千以上类型错误在三年内只出现一次
数据集间的错误域差异很大，三个数据集间只有百分之一的错误类型是相同的。
很多错误的类型只发生在一个数据集中
当数据中的错误域偏离手工混淆集捕获的错误域时，混淆集覆盖的错误数量下降到73%，剩下四分之一的错误有被误检测的风险。（限制检测罕见拼写错误的能力）

混淆集：通常用于解决误差稀疏性问题，由形态相似字符组成。构建覆盖所有错误域的混淆集不实际，因为许多域有许多不同的错误模式。

还可能会受到输入法（IME）影响，搜狗拼音输入法由发音相似引起，五笔输入法由形态相似引起。

准确的拼写检查需要覆盖多个域。

增加覆盖率非常难。

解决方案

由于数据少，直接训练模型非常困难，提出了一个带有自适应过滤器的拼写检查模型。

该模型通过考虑字符之间的语音和形态相似性来改进其预测。自适应过滤器是利用从使用分级字符嵌入的数据中学习的相似性函数来构建的（因为字符间相似性是导致替换错误的主要因素之一）

第一个使用字符嵌入过滤模型输出提高准确性的工作。

过滤器可以使用训练数据中的错误进行训练，受域偏移影响较小。

最低0.47元/天解锁文章

帅气的琳仔

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
《Domain-shift Conditioning using Adaptable Filtering …… for Robust Chinese Spell Check》阅读记录

Accepted at IEEE/ACM TASLP. 2021.5.22摘要拼写检查，处理有噪声的人工生成文本。限制：字符数量多、错误分布稀疏，缺乏足够覆盖异构和偏移错误域的资源。混淆集限制：大多数所使用的混淆集是固定的，不包括新的、偏移的错误域。本文：提出可扩展的自适应过滤器。利用分层字符嵌入（1）消除手工制作混淆集的需要（2）解决与罕见错误相关的稀疏性问题。在2014、2015的中文拼写检查Bake-off数据集上获得了SOTA结果结论提出了一种基于层次字符嵌.
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。