《Spelling Error Correction with Soft-Masked BERT》阅读记录

最新推荐文章于 2024-09-23 19:21:31 发布

帅气的琳仔

最新推荐文章于 2024-09-23 19:21:31 发布

阅读量539

点赞数 3

分类专栏：论文阅读

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_42546799/article/details/119032933

版权

本文介绍了Soft-Masked BERT，这是一种结合错误检测网络和基于BERT的纠正网络的神经结构，专门用于拼写错误纠正任务。通过软掩蔽技术，模型能更有效地利用全局上下文信息进行错误检测和修正，表现出优于仅使用BERT的现有方法的性能。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

《Spelling Error Correction with Soft-Masked BERT》

To be published at ACL 2020. 2020.5.15

链接：https://arxiv.org/abs/2005.07421

摘要

彼时CSC的SOTA方法：在语言表示模型BERT的基础上，在句子的每个位置从候选词列表中选择一个字符进行纠正(包括不纠正)。

但这一方法能力不是最强悍的，因为BERT本身没有足够的能力来检测每个位置是否有错误，显然是由于使用掩码语言建模对其进行预训练的方式。

本文工作：提出了一个由错误检测网络和基于BERT纠正错误网络的神经网络结构。

二者使用本文所述的Soft-Masking（软遮蔽/软掩码）技术相连

Soft-masked BERT 也可用于其他语言。

方法性能优于基线。

结论

提出了一种新的用于拼写错误校正的神经网络结构（主要是CSC上）——Soft-Masked BERT。

检测网络识别给定句子中可能不正确的字符，并对字符进行软屏蔽（soft-mask）。
校正网络以软屏蔽字符为输入，对字符进行校正。

软掩蔽技术是通用的，并且在其他检测-校正任务中可能有用。

在两个数据集上的实验结果表明：软屏蔽BERT明显优于仅利用BERT的现有方法。

未来工作

计划将Soft-Masked BERT扩展到其他问题，如语法错误纠正，并探索实现检测网络的其他可能性。

介绍

拼写检查任务

在词级或字符级上，改正文章中的拼写错误 (Yu and Li, 2014; Y u et al., 2014; Zhang et al., 2015; Wang et al., 2018b; Hong et al., 2019; Wang et al., 2019)。

对很多自然语言应用起十分关键的作用，比如

搜索 (Martins and Silva, 2004; Gao et al., 2010)
光学字符识别 (Afliet al., 2016; Wang et al., 2018b)
文章打分 (Burstein and Chodorow, 1999)

这篇文章在字符（character）级别上考虑中文拼写错误问题。

拼写错误纠正的难点

需要对世界的认识
一些错误需要推理

拼写错误纠正

采用机器学习和深度学习 (Yu et al., 2014; Tseng et al., 2015; Wang et al., 2018b).
- Zhang et al. (2015) 提供了一个CSC的统一框架：错误检测、候选词生成、最终候选选择（改错）使用传统机器学习。
- Wang et al. (2019) 提供带有复制机制的seq2seq模型：输入句→拼写错误被纠正后的新句子
  </

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。