《Global Attention Decoder for Chinese Spelling Error Correction》阅读记录

Findings of the Association for Computational Linguistics: ACL-IJCNLP 2021

链接:https://aclanthology.org/2021.findings-acl.122.pdf

参考:2021ACL中文文本纠错论文:Global Attention Decoder for Chinese Spelling Error Correction 论文笔记 - 知乎

摘要

近期BERT在CSC中的应用大多基于局部上下文信息,对词进行修正。

  • 没有考虑句子中错词的影响。
  • 对错误语境信息的关注会误导并降低CSC的表现。

该方法:

  • Global Attention Decoder (GAD):潜在正确输入字符与潜在错误输入字符候选字符间的全局关系【获取更丰富的全局上下文信息,减轻局部错误上下文影响
  • A BERT with Confusion set guided Replacement Strategy(BERT_CRS):带有混淆集引导替换策略的BERT,缩小与下游任务CSC间的距离。
    • 生成的候选字符覆盖正确字符概率>99.9
    • 比其他模型性能高处6.2%,SOTA

结论

  • GAD(全局注意解码器):在潜在正确输入字符与潜在错误输入字符候选字符条件下,学习全局关系,缓解错误语境。
  • BERT_CRS:缩小BERT与CSC差距。

三个数据集上实验表明,BERT_CRS优于以往所有最先进方法,与GAD结合获得了更高的性能。

介绍

  • 拼写纠错:发现错误字符/单词→改正
  • 错误来源:人类书写、语音识别、光学字符识别(OCR)
  • 汉语错别字:字音(83%)、视觉(48%)、语义相似性。
  • 难点:同一个字在不同的语境中可能会有很大的变化。

CSC的主要方法:

  1. 基于语言模型(Yeh et al., 2013; Yu and Li, 2014; Xie et al., 2015
  2. 基于seq2seq模型 (Wang et al., 2019, 2018) 

随着预训练BERT模型出现,取得了更大进展 (Hong et al., 2019; Zhang et al., 2020;
Cheng et al., 2020) ,几乎所有方法都利用了混淆集(音/视相似)

(Yu and Li, 2014)基于候选集生成候选字符,并找出语言模型判断概率最高的候选字符。

(Cheng et al., 2020)使用卷积网络,利用混淆集捕捉字符之间的相似性和先验依赖关系。

(Wang et al., 2019)提出了一种从混淆集生成字符的指针网络。

之前方法基于含有噪声或其他错误的局部上下文信息来预测每个字符或单词。

流程:

  • 为解决局部错误上下文信息,引入潜在错误字符的候选集和由BERT_CRS生成的隐层状态。
  • 全局注意力来获取全局隐层状态和潜在全局注意权重。
  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值