ChineseBERT: Chinese Pretraining Enhanced by Glyph and Pinyin Information

总体介绍

  相比于英文单词,汉字是象形文字而且带有音调。因此汉字的字形在一定程度上可以代表汉字本身的含义,而音调的存在则可以在一定程度上可以处理中文的一词多义的情况。
  但是由于之前的预处理模型(BERT家族)都是基于英语的,即使是出的bert-chinese也只是将汉语的字与tensor进行了映射。
  基于上述情况Zijun等人就将汉语的拼音和字形与其本身融入到一起,在BERT的基础上提出了ChineseBERT。

具体方法

字形嵌入

  该文使用了3种类型的字体(隶书,仿宋,小楷)表示字形信息的嵌入,每张图片的大小均为24243,然后接入一个向量大小为2352(不太清楚为啥是这个数)的平滑层作为字形嵌入的输出。
字形嵌入

图1 字形嵌入

拼音嵌入

  作者首先通过开源的pypinyin package包生成拼音序列,用数字代表音调。输入的拼音序列长度固定为8,当拼音序列不足8时,剩余的位置用“-”填充,然后结构宽度为2的CNN和最大池化以得到输出维度固定的拼音嵌入。
在这里插入图片描述

图2 拼音嵌入

混合嵌入

  将char embedding(对汉语来说应该是字嵌入,英文仍然是WordPiece算法的字符),拼音嵌入和字形嵌入拼接在一起形成一个3维向量再通过一个全连接层转化为1维向量作为BERT的输入。
在这里插入图片描述

图3 混合嵌入

在这里插入图片描述

图4 ChineseBERT结构

总结

  该文针对于此前的应用于中文的预训练语言模型没有考虑中文的拼音和字形的情况做了完善,以混合嵌入代替单一的汉字嵌入并取得了很好的效果,但是由于中文的复杂性而言,只考虑字而不考虑词在完整表达含义方面还是有所欠缺的。

[1]ChineseBERT: Chinese Pretraining Enhanced by Glyph and Pinyin Information

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值