SpellGCN学习

最新推荐文章于 2024-08-15 14:33:52 发布

雾里闹

最新推荐文章于 2024-08-15 14:33:52 发布

阅读量2.8k

点赞数

分类专栏：文本纠错文章标签：自然语言处理

本文链接：https://blog.csdn.net/shang4283589/article/details/108456779

版权

SpellGCN: Incorporating Phonological and Visual Similarities into Language Models for Chinese Spelling Check

paper

code

这个是2020年蚂蚁金服在ACL上的一篇论文，主要思路是使用GCN将发音和形状相似的字符的嵌入向量进行融合，然后使用bert作为基模型进行字符级别的分类，最后使用softmax进行目标字符预测。

模型整体由两个模块组成，模块一为SpellGCN，模块二为抽取模型（满足输入为[x1,x2,…,xn],输出为[v1,v2,…,vn]）进行字符的特征抽取，在本文中使用bert模型进行字符特征抽取。

在使用时模型一次性完成检测和纠错两项工作，在最后一层对输入字符 $x_i$ 进行目标字符预测时，选取 $argmax_{\hat y_i}p(\hat y_i|X)$ 具有最大概率的字符作为预测目标字符 $y_i$ ，当输入字符和目标字符一致时则表示文本无错误，如果不一致则表示文本拼写错误，纠正后的值为预测字符 $y_i$

个人感觉这个模型在结构方面比较新颖，使用GCN来进行相似字符的特征聚合，但是在最后检测和纠错上过于简单。另外bert使用T-TA是不是会对提取器的效果有所提高？

SpellGCN的结构

SpellGCN使用2013年的SIGHAN的csc比赛[数据集](Chinese Spelling Check Evaluation at SIGHAN Bake-off 2013)生成尺寸为 $N\times N$ 的二元邻接矩阵 $A$ ，其中N为数据集中出现过的混淆字符个数，邻接矩阵 $A_{i,j}$ 的值由数据集决定，如果数据集中字符i和j为易混淆的字符，则 $A_{i,j}=1$ ,否则 $A_{i,j}=0$ .其中在本数据集中字符的混淆有两种情况，发音相似（ pronunciation）、形状相似（shape），我们根据混淆原因得到两个邻接矩阵：发音相近的矩阵 $A^p$ ,形状相似的矩阵 $A^s$ .

SpellGCN的目标是学习映射函数将 $l$ 层节点向量 $H^l\in \mathbb{R}^{N\times D}$ 通过卷积运算映射到新的节点向量 $H^{l+1}$ 。这个映射函数主要有两个组件组成Graph Convolution Operation和Attentive Graph Combination Operation。