《PLOME: Pre-training with Misspelled Knowledgefor Chinese Spelling Correction》阅读记录

《PLOME: Pre-training with Misspelled Knowledgefor Chinese Spelling Correction》ACL2021链接:https://aclanthology.org/2021.acl-long.233.pdf
摘要由CSDN通过智能技术生成

《PLOME: Pre-training with Misspelled Knowledgefor Chinese Spelling Correction》

ACL2021

链接:https://aclanthology.org/2021.acl-long.233.pdf

摘要

使用错误拼写知识的预训练掩码语言模型

核心思想 :

  • 使用来自混淆集(confusion set)的相似字符做mask,替代BERT中的[MASK],更好地做字符预测
  • 使用GRU网络,利用拼音与笔画,学习字符之间的发音与字形相似度

SOTA.

结论

  • 第一个面向CSC这一特定任务的语言模型。
  • 基于混淆集的掩码策略,可以联合学习语义和拼写错误的知识。
  • 使用语音和字形GRU网络,模拟这些语音、字形方面特征。
  • 第一个通过联合考虑目标语音和字符分布进行决策的模型。
  • PLOME的性能明显优于所有对比模型

介绍

中文拼写错误主要有字音与字形错误,其中83%的错误中存在发音错误,48%的错误存在字形错误。

处理CSC(Chinese spelling correction)任务的几个重要分支

  • 语言模型
  • BERT
    • 由于大部分bert不是面向特定任务知识的,效果次佳。

与FASPell的对比

FASPell也融合了字音与字形,但是相似度衡量用的是制定的计算规则(编辑距离)

而PLOME的想法是↓

PLOME简介

  • 基于confusion set里的相似字符对句子做mask,让模型在预训练时能够共同学习到语义和拼错知识。
  • 每个字符的笔画、语音作为输入,让PLOME对任意字符间的相似性进行建模
  • 联合目标语音和字符,学习错误知识

方法

总体仍然为:pre-training & fine-tuning

基于混淆集的掩蔽策略(Confusion Set based Masking Strategy)

  • 2
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值