ACL2021--ChineseBert论文分享

最新推荐文章于 2024-08-16 09:18:53 发布

zkhll

最新推荐文章于 2024-08-16 09:18:53 发布

阅读量790

点赞数 4

分类专栏：论文学习文章标签：深度学习人工智能

本文链接：https://blog.csdn.net/qq_27789681/article/details/119427028

版权

论文学习专栏收录该内容

1 篇文章 0 订阅

订阅专栏

1、模型结构

最近在看2021年的acl时，发现了一个最新的中文预训练模型，论文名称为：ChineseBERT: Chinese Pretraining Enhanced by Glyph and Pinyin Information。该模型在原有bert类模型中结合了中文的字形和拼音两种具有中国语言特色的特征，使该预训练模型在各种任务上都比原有模型有了明显提升。目前该论文也将实现的代码放在了github，大家有兴趣的可以去拜读这篇论文和代码。本篇文章对该论文进行一个简单的分享，并提出自己的一些观点。

大规模预训练模型在很多自然语言处理任务中都大放异彩，如：自然语言理解、文本分类、问题回答等。但是Bert作为为英语语言设计的预训练模型，它在应用于中文任务时并没有考虑到中文本身的语言特点：字形和拼音。对于字形来说，汉字是有象形文字的，例如“江河湖海”都有三点水作为偏旁，因此在把它们放在向量空间时距离应该是很近的。对于拼音来说，一个字可能是多音字，而多音字一般都有不同的含义，所以我们需要使用到拼音信息帮我们去理解一个字或者词。

下面我们直接来看一下模型的构成。

1.1 整体结构

对于每一个字符，我们都会得到它的字符embedding、字形embedding和拼音embedding，然后我们将这三个D-dimension的embedding通过fusion模型(一个全连接层)合并成一个D-dimension的embedding。我们得到的fusion embedding加上位置embedding就得到的了我们输入到bert模型的向量。

1.2 字形embedding

作者使用了仿宋、行楷和隶书3种字体来生成字形embedding。将字的图片分割成24*24个像素点，每个像素点的像素从0到255，这样输入三张图片就得到24*24*3的向量。这里文章中说将向量平坦成2352维向量，也就是28*28*3，这里猜测是每个边都加入了2个padding，目的是为了让字形embedding的长度与其他两种相同。最后2352维向量会经过一个全连接层得到一个784的embedding。

1.3 拼音embedding

对于拼音embedding，本文中用的是pypinyin这个python的依赖包。音调将直接接在拼音的后面，如上图所示的mao后面的一声。如果拼音的长度没有到8，则使用“-”字符来填充，最终将其转为维度为128的向量。然后我们将其输入到一个CNN网络中，CNN中kernal的宽度为2，最后接一个max-pooling层得到最终的拼音embedding(长度仍为768)。