SpellGCN学习

SpellGCN: Incorporating Phonological and Visual Similarities into Language Models for Chinese Spelling Check

paper

code

这个是2020年蚂蚁金服在ACL上的一篇论文,主要思路是使用GCN将发音和形状相似的字符的嵌入向量进行融合,然后使用bert作为基模型进行字符级别的分类,最后使用softmax进行目标字符预测。

模型整体由两个模块组成,模块一为SpellGCN,模块二为抽取模型(满足输入为[x1,x2,…,xn],输出为[v1,v2,…,vn])进行字符的特征抽取,在本文中使用bert模型进行字符特征抽取。

在使用时模型一次性完成检测和纠错两项工作,在最后一层对输入字符 x i x_i xi进行目标字符预测时,选取 a r g m a x y ^ i p ( y ^ i ∣ X ) argmax_{\hat y_i}p(\hat y_i|X) argmaxy^ip(y^iX)具有最大概率的字符作为预测目标字符 y i y_i yi,当输入字符和目标字符一致时则表示文本无错误,如果不一致则表示文本拼写错误,纠正后的值为预测字符 y i y_i yi

个人感觉这个模型在结构方面比较新颖,使用GCN来进行相似字符的特征聚合,但是在最后检测和纠错上过于简单。另外bert使用T-TA是不是会对提取器的效果有所提高?

SpellGCN的结构

SpellGCN使用2013年的SIGHAN的csc比赛[数据集](Chinese Spelling Check Evaluation at SIGHAN Bake-off 2013)生成尺寸为 N × N N\times N N×N的二元邻接矩阵 A A A,其中N为数据集中出现过的混淆字符个数,邻接矩阵 A i , j A_{i,j} Ai,j的值由数据集决定,如果数据集中字符i和j为易混淆的字符,则 A i , j = 1 A_{i,j}=1 Ai,j=1,否则 A i , j = 0 A_{i,j}=0 Ai,j=0.其中在本数据集中字符的混淆有两种情况,发音相似( pronunciation)、形状相似(shape),我们根据混淆原因得到两个邻接矩阵:发音相近的矩阵 A p A^p Ap,形状相似的矩阵 A s A^s As.

SpellGCN的目标是学习映射函数将 l l l层节点向量 H l ∈ R N × D H^l\in \mathbb{R}^{N\times D} HlRN×D通过卷积运算映射到新的节点向量 H l + 1 H^{l+1} Hl+1。这个映射函数主要有两个组件组成Graph Convolution Operation和Attentive Graph Combination Operation。

图卷积操作

图卷积操作的目的是为了包含(absorb)图中相邻字符的信息,在每层网络中,都进行如下操作:
f ( A , H l ) = A ^ H l W g l f(A,H^l)=\hat AH^lW_g^l

评论 4
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值