论文慢递3: CSC论文分享_FASPell_EMNLP2019

塞外花岗岩

已于 2022-01-21 23:45:55 修改

阅读量1.1k

点赞数

分类专栏： NLP论文慢递文章标签：深度学习机器学习自然语言处理

于 2022-01-21 23:41:25 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_43410601/article/details/122631276

版权

NLP论文慢递专栏收录该内容

5 篇文章 0 订阅

订阅专栏

目录

FASPell(EMNLP2019)

FASPell(EMNLP2019)

背景

目前方法存在的问题：

过拟合匮乏的中文拼写错误数据集
依赖存在缺陷且不灵活的混淆集判断相似性

本文贡献：

提出一个用于CSC的新框架：DAE-decoder
提出一种更精确的描述单词相似性的方法
提出一个实践有效的解码方案提高召回

关于标题：

Fast
Adaptable
Simple
Powerful

主要方法

结构图

DAE部分

鉴于MLM预训练模型的兴起，自然地采用其作为DAE部分，文章使用基础的Bert作为编码器；
训练阶段与Bert的MLM类似：

无错误文本：采用Bert原始的MLM方案；
有错误文本：
- 将错误单词Mask处理
- 随机Mask无错单词预防过拟合

decoder部分

简单说，采用编辑距离来衡量DAE输出的候选项；

数据集

采用Kanji Database Project和Uni- han Database数据集获取单词的字形与字音信息；

相似度

具体方案参考原文，使用IDS与CJK语言发音作为字符串形式计算编辑距离；

筛选方案

从训练集学习出曲线保证检对且纠对的召回率；将曲线用于测试集筛选

实验结果

实验配置如下，具体参考原文
最终实验结果，接近SOTA指标，但解码更加快速；

实验结果 - 速度比较结果
运行速度

结论

相较于先前方法：

因为基于预训练模型，所需训练数据较少；
不再受限于混淆集；

讨论

考虑端到端
decoder部分学习曲线利用信息不充分（未同时考虑语音与字形）

塞外花岗岩

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
论文慢递3: CSC论文分享_FASPell_EMNLP2019

目录FASPell(EMNLP2019)背景主要方法DAE部分decoder部分数据集相似度筛选方案实验结果结论FASPell(EMNLP2019)背景目前方法存在的问题：过拟合匮乏的中文拼写错误数据集依赖存在缺陷且不灵活的混淆集判断相似性本文贡献：提出一个用于CSC的新框架：DAE-decoder提出一种更精确的描述单词相似性的方法提出一个实践有效的解码方案提高召回关于标题：FastAdaptableSimplePowerful主要方法结构图DAE部分鉴于
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。