Glyce: Glyph-vectors for Chinese Character Representations

最新推荐文章于 2024-09-11 14:42:31 发布

csdn_czx12345

最新推荐文章于 2024-09-11 14:42:31 发布

阅读量492

点赞数 1

分类专栏： NLP 文章标签：人工智能深度学习 NLP

本文链接：https://blog.csdn.net/csdn_czx12345/article/details/107307184

版权

论文Glyce通过结合历史汉字字体、定制的Tianzige-CNN结构和汉字图像分类辅助任务，提高了中文字符在NLP任务中的表示能力。实验表明，这种方法在多项NLP任务中取得优秀效果，增强了模型的泛化性能。

摘要由CSDN通过智能技术生成

本篇论文选自2019年NeurIPS，论文链接Glyce: Glyph-vectors for Chinese Character Representations

摘要

对于像中文这种象形文字，其字符本身形式就含有一定信息，但是由于象形文字缺乏丰富的象形证据以及标准计算机视觉模型对于字符数据的弱泛化能力，这种信息在NLP任务中没得到充分利用。
在本paper中提出Glyce，提出三点创新：(1)利用历史上的汉字字体（金文，繁体中文等）来丰富字符象形证据；(2)设计了适合汉字图像处理的CNN结构（tianzige-CNN）；(3)在多任务学习设置中，将图像分类用作辅助任务，以提高模型的泛化能力。

简介

早期的基于CNN的模型来处理字符没有取得进展甚至还会有负面效果，原因可归纳为三点：

没有使用正确的字体。汉字经过长时间的演化，字体有很大改变，比如现在的简体字相对于繁体字，字符表现形式本身失去了很多信息。
没有使用正确的CNN架构。将字符作为图像由CNN处理会有一个问题，传统的用来进行图像处理CNN处理的图像数据尺寸比字符图像会大很多。需要使用不同的CNN架构来捕捉字符图像的局部特征。
没有使用regulatory functions。传统的CNN用来进行图像处理，用来进行训练的数据量是很大的，然汉字的数量相对是很有限的。在防止模型过拟合以及提高模型泛化能力方面，辅助训练目标很有必要。

在本论文中将字符作为图像进行处理，使用CNN来获取字符的表示，针对上面三点原因提出：

使用多种不同时期的汉字以及字体。
Tianzige-CNN (田字格)。
添加图像分类损失函数。

Glyce

使用不同时期的汉字以及多种字体

在这里插入图片描述
对同一个字符来说，对于不同时期的汉字或者字体，它的图像表现形式可能会差别很大。这种方式类似于计算机视觉领域的数据增强，可以提高模型泛化能力。

Tianzige-CNN

在这里插入图片描述
由于汉字数量相对有限，以及传统CNN处理的图像尺寸与汉字图像尺寸差别较大，提出Tianzige-CNN。输入图像的通道数即为不同的字体数。最后图像尺寸为2*2，和田字格尺寸相同，田字格结构能够表示出中文字符之间偏旁部首的分布及其汉字的书写顺序。网络最后使用分组卷积，可以减少参数量从而防止过拟合。