《Domain-shift Conditioning using Adaptable Filtering …… for Robust Chinese Spell Check》阅读记录

本文提出了一种使用分层字符嵌入的自适应过滤器,解决了中文拼写检查中的域偏移问题。通过这种方法,模型能够在不同领域、不同输入方式和个体文本中实现拼写检查的鲁棒性。实验表明,提出的HeadFilt模型在2014、2015年中文拼写检查Bake-off数据集上取得了最佳结果,尤其在罕见错误的检测和纠正上表现出色。
摘要由CSDN通过智能技术生成

《Domain-shift Conditioning using Adaptable Filtering via Hierarchical Embeddings for Robust Chinese Spell Check》

Accepted at IEEE/ACM TASLP.  2021.5.22

链接:https://arxiv.org/abs/2008.12281

摘要

拼写检查,处理有噪声的人工生成文本。

限制:字符数量多、错误分布稀疏,缺乏足够覆盖异构和偏移错误域的资源。

混淆集限制:大多数所使用的混淆集是固定的,不包括新的、偏移的错误域。

本文:提出可扩展的自适应过滤器。利用分层字符嵌入(1)消除手工制作混淆集的需要(2)解决与罕见错误相关的稀疏性问题。

在2014、2015的中文拼写检查Bake-off数据集上获得了SOTA结果

结论

提出了一种基于层次字符嵌入的中文拼写检查过滤模型

HeadFilt的适应性使得所提出的模型能够适应来自不同领域的文本、使用不同输入方法编写的文本以及由不同个人编写的潜在文本。

介绍

背景

汉语字符较多(常见字多达一万个),错误稀少,语言资源较为稀疏。

无法充分覆盖异构和偏移的错误域:错误来自不同领域,带有错误的文本是打字还是手写,用户的人口、学历如何,都会导致偏移错误域。如:非母语学习者考试的文章,可能不能很好地推广到在社交平台写文本的母语者。

 (CFS confusion set)

  • 两千以上类型错误在三年内只出现一次
  • 数据集间的错误域差异很大,三个数据集间只有百分之一的错误类型是相同的。
  • 很多错误的类型只发生在一个数据集中
  • 当数据中的错误域偏离手工混淆集捕获的错误域时,混淆集覆盖的错误数量下降到73%,剩下四分之一的错误有被误检测的风险。(限制检测罕见拼写错误的能力)

混淆集:通常用于解决误差稀疏性问题,由形态相似字符组成。构建覆盖所有错误域的混淆集不实际,因为许多域有许多不同的错误模式。

还可能会受到输入法(IME)影响,搜狗拼音输入法由发音相似引起,五笔输入法由形态相似引起。

准确的拼写检查需要覆盖多个域。

增加覆盖率非常难。

解决方案

由于数据少,直接训练模型非常困难,提出了一个带有自适应过滤器的拼写检查模型。

该模型通过考虑字符之间的语音和形态相似性来改进其预测。自适应过滤器是利用从使用分级字符嵌入的数据中学习的相似性函数来构建的(因为字符间相似性是导致替换错误的主要因素之一)

第一个使用字符嵌入过滤模型输出提高准确性的工作。

过滤器可以使用训练数据中的错误进行训练,受域偏移影响较小。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值