《PLOME: Pre-training with Misspelled Knowledgefor Chinese Spelling Correction》阅读记录

最新推荐文章于 2024-04-06 09:50:07 发布

帅气的琳仔

最新推荐文章于 2024-04-06 09:50:07 发布

阅读量1.4k

点赞数 2

分类专栏：论文阅读

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_42546799/article/details/119276705

版权

《PLOME: Pre-training with Misspelled Knowledgefor Chinese Spelling Correction》ACL2021链接：https://aclanthology.org/2021.acl-long.233.pdf

摘要由CSDN通过智能技术生成

《PLOME: Pre-training with Misspelled Knowledgefor Chinese Spelling Correction》

ACL2021

链接：https://aclanthology.org/2021.acl-long.233.pdf

摘要

使用错误拼写知识的预训练掩码语言模型。

核心思想：

使用来自混淆集(confusion set)的相似字符做mask，替代BERT中的[MASK]，更好地做字符预测。
使用GRU网络，利用拼音与笔画，学习字符之间的发音与字形相似度。

SOTA.

结论

第一个面向CSC这一特定任务的语言模型。
基于混淆集的掩码策略，可以联合学习语义和拼写错误的知识。
使用语音和字形GRU网络，模拟这些语音、字形方面特征。
第一个通过联合考虑目标语音和字符分布进行决策的模型。
PLOME的性能明显优于所有对比模型。

介绍

中文拼写错误主要有字音与字形错误，其中83%的错误中存在发音错误，48%的错误存在字形错误。

处理CSC（Chinese spelling correction）任务的几个重要分支

语言模型
BERT
- 由于大部分bert不是面向特定任务知识的，效果次佳。

与FASPell的对比

FASPell也融合了字音与字形，但是相似度衡量用的是制定的计算规则（编辑距离）

而PLOME的想法是↓

PLOME简介

基于confusion set里的相似字符对句子做mask，让模型在预训练时能够共同学习到语义和拼错知识。
每个字符的笔画、语音作为输入，让PLOME对任意字符间的相似性进行建模。
联合目标语音和字符，学习错误知识

方法

总体仍然为：pre-training & fine-tuning

基于混淆集的掩蔽策略（Confusion Set based Masking Strategy）

最低0.47元/天解锁文章

帅气的琳仔

关注

2
点赞
踩
6

收藏

觉得还不错? 一键收藏
0
评论
《PLOME: Pre-training with Misspelled Knowledgefor Chinese Spelling Correction》阅读记录

《PLOME: Pre-training with Misspelled Knowledgefor Chinese Spelling Correction》ACL2021链接：https://aclanthology.org/2021.acl-long.233.pdf
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。