论文慢递2:PLOME: Pre-training with Misspelled Knowledge for Chinese Spelling Correction

abstract

将拼写错误知识加入到预训练掩码语言模型,使用修正混淆集来代替预测掩码,加入语音级和字形级信息来辅助模型学习纠错;

方法

语音字形纠错

模型结构

将拼音与笔画加入embedding层辅助
请添加图片描述

基于混淆集的掩码策略

相较于bert直接MASK,采用混淆集辅助MASK,通过形近和音近字进行掩码使模型纠错有的放矢;除此之外,为了增加模型鲁棒性,还有概率进行随机掩码;为了防止模型总是倾向于纠错,也有概率维持不变;
请添加图片描述

嵌入层

通过GRU编码字音与字形信息(通过拼音与笔画)
请添加图片描述

Encoder层

基本与BERT相同

Output层

由上文中的模型结构图可知,模型对字的字形与字音均进行了预测;

  • 对于字形预测,预测正确的概率为
    p c ( y i = j ∣ X ) = s o f t m a x ( W c h i + b c ) [ j ] p_c(y_i=j|X)=softmax(W_ch_i+b_c)[j] pc(yi=jX)=softmax(Wchi+bc)[j]
  • 对于拼音预测,预测正确概率为:
    p p ( g i = k ∣ X ) = s o f t m a x ( W p h i + b p ) [ k ] p_p(g_i=k|X)=softmax(W_ph_i+b_p)[k] pp(gi=kX)=softmax(Wphi+bp)[k]

训练方法

分为字形与拼音损失:
L c = − ∑ i = 1 n l o g p c ( y i = l i ∣ X ) L_c=-\sum_{i=1}^n log p_c(y_i=l_i|X) Lc=i=1nlogpc(yi=liX)
L p = − ∑ i = 1 n l o g p p ( g i = r i ∣ X ) L_p=-\sum_{i=1}^n log p_p(g_i=r_i|X) Lp=i=1nlogpp(gi=riX)
训练阶段损失为:
L = L c + L p L=L_c+L_p L=Lc+Lp

finetune

训练参照训练方法,预测阶段采用两概率乘积表示该字最终概率:
p j ( y i = j ∣ X ) = p c ( y i = j ∣ X ) × p p ( g i = j p ∣ X ) p_j(y_i=j|X)=p_c(y_i=j|X)\times p_p(g_i=j^p|X) pj(yi=jX)=pc(yi=jX)×pp(gi=jpX)
最终联合概率分布可以表示为:(其中 I ∈ R n c × n p I \in R^{n_c \times n_p} IRnc×np
p j ( y i ∣ X ) = [ p p ( g i ∣ X ) ⋅ I T ] ⊙ p c ( y i ∣ X ) p_j(y_i|X)=[p_p(g_i|X)\cdot I^T]\odot p_c(y_i|X) pj(yiX)=[pp(giX)IT]pc(yiX)

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值