ChineseBERT: Chinese Pretraining Enhanced by Glyph and Pinyin Information

最新推荐文章于 2022-10-06 18:11:12 发布

jst100

最新推荐文章于 2022-10-06 18:11:12 发布

阅读量948

点赞数

文章标签：自然语言处理深度学习人工智能 bert

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/jst100/article/details/122468702

版权

文章目录

总体介绍
具体方法
总结

总体介绍

相比于英文单词，汉字是象形文字而且带有音调。因此汉字的字形在一定程度上可以代表汉字本身的含义，而音调的存在则可以在一定程度上可以处理中文的一词多义的情况。
但是由于之前的预处理模型（BERT家族）都是基于英语的，即使是出的bert-chinese也只是将汉语的字与tensor进行了映射。
基于上述情况Zijun等人就将汉语的拼音和字形与其本身融入到一起，在BERT的基础上提出了ChineseBERT。

具体方法

字形嵌入

该文使用了3种类型的字体（隶书，仿宋，小楷）表示字形信息的嵌入，每张图片的大小均为24243，然后接入一个向量大小为2352（不太清楚为啥是这个数）的平滑层作为字形嵌入的输出。

图1 字形嵌入

拼音嵌入

作者首先通过开源的pypinyin package包生成拼音序列，用数字代表音调。输入的拼音序列长度固定为8，当拼音序列不足8时，剩余的位置用“-”填充，然后结构宽度为2的CNN和最大池化以得到输出维度固定的拼音嵌入。
在这里插入图片描述

图2 拼音嵌入

混合嵌入

将char embedding（对汉语来说应该是字嵌入，英文仍然是WordPiece算法的字符），拼音嵌入和字形嵌入拼接在一起形成一个3维向量再通过一个全连接层转化为1维向量作为BERT的输入。
在这里插入图片描述

图3 混合嵌入

在这里插入图片描述

图4 ChineseBERT结构

总结

该文针对于此前的应用于中文的预训练语言模型没有考虑中文的拼音和字形的情况做了完善，以混合嵌入代替单一的汉字嵌入并取得了很好的效果，但是由于中文的复杂性而言，只考虑字而不考虑词在完整表达含义方面还是有所欠缺的。

[1]ChineseBERT: Chinese Pretraining Enhanced by Glyph and Pinyin Information

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
ChineseBERT: Chinese Pretraining Enhanced by Glyph and Pinyin Information

文章目录总体介绍具体方法字形信息总体介绍   相比于英文单词，汉字是象形文字而且带有音调。因此汉字的字形在一定程度上可以代表汉字本身的含义，而音调的存在则可以在一定程度上可以处理中文的一词多义的情况。   但是由于之前的预处理模型（BERT家族）都是基于英语的，即使是出的bert-chinese也只是将汉语的字与tensor进行了映射。  基于上述情况Zijun等人就将汉语的拼音和字形与其本身融入到一起，在BERT的基础上提出了Chines
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。