文献阅读-CSC-Confusionset-guided Pointer Networks for Chinese Spelling Check

最新推荐文章于 2023-06-03 17:04:40 发布

Flying Warrior

最新推荐文章于 2023-06-03 17:04:40 发布

阅读量973

点赞数 1

分类专栏：文献阅读 CSC-中文拼写错误检查文章标签：自然语言处理

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_43481320/article/details/114839553

版权

文献阅读同时被 2 个专栏收录

8 篇文章 1 订阅

订阅专栏

CSC-中文拼写错误检查

4 篇文章 0 订阅

订阅专栏

Confusionset-guided Pointer Networks for Chinese Spelling Check

作者：Tencent Cloud AI
时间：2019年
会议：ACL-2019
论文地址

其他：
Pointing the Unknown Words
文中的pointer借鉴该文，其实颇有道理，但是有一个问题，中文中能看到的，都没有错字，而英文有 ahhfi，是个unk的，但是，眼镜蛇，每一个字都是对的。

简述：

输入：数据集-正确句子-错误句子-location–混淆集-M

怎么做：一个网络判断训练并判断哪个地方是错的-pointed-network，然后，正确的就赋值过去，错误的就在混淆集里面选，不过选的时候，因为seq2seq的encode是一个一个预测的，所以，这个时候，混淆集的选择，有更多“context”的信息，所以更好。that’s all

下一步，尝试复现。

做了什么事情-摘要

提出一个基于混淆集的指针网络。
更具体的说：用现有的混淆集去生成字符，为此，我们新颖的Seq2Seq模型共同学习通过指针网络从输入句子中复制正确的字符，或者从混乱集中而不是整个词汇表中生成字符

之前都是怎么做的-介绍

说了两个公认的背景信息，首先，中文单词之间没有单词定界符。其次，由于其上下文敏感特性，错误检测任务很困难，即，错误通常只能在短语/句子级别而不是字符级别确定

说实话，看半天感觉没说清楚干了什么。

模型具体内容

在这里插入图片描述
输入一个句子，然后经过一个seq2seq输出纠错后的句子。

混淆集

构建一个混淆集M

encoder

首先说明，在char-级别，因为，在word级别，会扩大，中文分词中的错误。

用双向LSTM和一个软注意力，去对输入的句子进行 encode

decoder

再用一个 LSTM和注意力机制，像翻译一样，逐个解码。得到句子。

如何用混淆集，在预测下一个字的时候，当下一个字的位置上，在混淆集合里面是（就是说，这个字对应有很多混淆字），那么，就不是对所有的vocab 进行搜索，去预测下一个字，而是，只对混淆字去进行，搜索。

模糊集指导的复制机制，复制正确字符，从模糊集选出纠错字符，模糊集结合指针网络

这是ACL！

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
5
评论
文献阅读-CSC-Confusionset-guided Pointer Networks for Chinese Spelling Check

Confusionset-guided Pointer Networks for Chinese Spelling Check作者：Tencent Cloud AI时间：2019年会议：ACL-2019论文地址简述：输入：数据集-正确句子-错误句子-location–混淆集-M怎么做：一个网络判断训练并判断哪个地方是错的-pointed-network，然后，正确的就赋值过去，错误的就在混淆集里面选，不过选的时候，因为seq2seq的encode是一个一个预测的，所以，这个时候，混淆集的选择，
复制链接

扫一扫

专栏目录

评论 5

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。