汉字，字符和细粒度子字符组成的联合嵌入_开源中文词嵌入模型字符粒度-CSDN博客

汉字，字符和细粒度子字符组成的联合嵌入

原文：Joint Embeddings of Chinese Words, Characters, and Fine-grained Subcharacter Components

http://www.aclweb.org/anthology/D/D17/D17-1027.pdf

作者：Jinxing Yu， Xun Jian ，Hao Xin ，Yangqiu Song

摘要

文字嵌入最近引起了很多关注。与字母书写系统不同，中文字符通常由子字符组成，也是语义信息。在这项工作中，我们提出了一种方法来共同嵌入中文单词以及它们的字符和细粒度的子字符组件。我们使用三种可能性来评估上下文词语，字符和组件是否可以预测当前目标词，并收集13,253个子字符组件来演示现有的分解汉字方法是不够的。对词语相似性和词类比任务的评估表明了我们模型的优越性能。

引言

分布式词表示方法将单词表示为连续向量空间中的向量，并且能够更好地揭示传统单一表示中的语义和句法信息。词嵌入的成功和普及，使得大多数现有的方法将每个词作为最小单位，忽略词的形态信息。在优化与新生单词及其上下文有关的成本函数时，难以理解新生词语。为了解决这个问题，一些最近的研究已经调查了如何利用语素或字符来学习更好的单词嵌入。

与其他字母书写系统不同（如英文），中文书写是逻辑语言，即汉字可以是一个单独的单词或多音节单词的一部分。字符本身通常由子字符组成，这也是语义上的信息。汉字的子词项包括字符和子字符组件，含有丰富的语义信息。构成单词的字符可以指示单词的语义，并且子字符组件（例如部首和部件本身是一个字符）组成一个字符可以指示该字符的语义含义。字符的组成可以粗略地分为两种类型：语义成分和语音成分。语义组件指示字符的含义，而语音组件指示字符的声音。

例如：偏旁三点水就是（湖）和海（海）的语义成分，马就是妈和骂的语音组件部分。

利用诸如字符和子字符组件的子词信息可以增强具有内部形态语义的中文词嵌入。已经提出了一些方法来并入中文词嵌入的子词信息。

相关工作：

1.Sun et al.(2014) and Li et al. (2015) proposed methods to enhance Chinese character embeddings with radicals based on C&W model (Collobert and Weston, 2008) and word2vec models (Mikolov et al.,2013a,b) respectively.

基于C＆W模型和word2vec模型分别增强基于偏旁的汉字嵌入。

2.Chen et al. (2015) used Chinese characters to improve Chinese word embeddings and proposed the CWE model to jointly learn Chinese word and character embeddings.

陈等人。（2015）使用汉字来改善汉语词语嵌入，并提出了CWE模型来共同学习中文词语和字符嵌入。

3.Xu et al. (2016) extended the CWE model by exploiting the internal semantic similarity between a word and its characters in a cross-lingual manner.

Xu等人（2016）扩展了CWE模型，以跨语言的方式利用单词与其字符之间的内部语义相似性。

为了结合基本字符和字符组合，Yin et al（2016）提出了基于CWE模型的多粒度嵌入（MGE）模型，该模型将上下文表示为周围词汇的组合，周围的字符，以及目标单词的部首。特别是，他们开发了一个20,847个字符和296个字根的字典。

但是，上述所有方法仍然错过了许多汉字中的细粒度组件。在形式上和历史上，偏旁是用于在字典中索引中文字符的字符组件。虽然许多部首也是语义成分，但是一个字符只有一个部首，它不能完全揭示字的语义和结构。除了超过200个自由基外，还有超过10,000个组件，它们在语义上或语音上也是有用的。例如：照 one radical 灬其对应的中国传统偏旁火（日刀口）。

Shi等人（2015）提出使用WUBI输入法来分解中文字符分成组件。但是，WUBI输入法使用规则对汉字进行分组转换成适合基于字母键盘的无意义群集。组件的语义不是直截了当的。

在这项工作中，我们提出了一个模型来共同学习中文单词，字符和子字符组件的嵌入。学习的中文单词嵌入可以利用外部上下文共现信息并结合丰富的内部子字语义信息。对词语相似性和词类比任务的实验证明了我们模型相对于以前作品的有效性。

联合学习词嵌入模型

以CBOW模型为基础，JWE使用上下文单词矢量的平均值，上下文字符矢量的平均值以及上下文子字符矢量的平均值来预测目标单词，并将这三个预测损失的总和用作目标函数。

wi是目标词,wi-1和wi+1是其左词和右词。 ci-1和ci+1表示上下文中的字符。 si-1和si+1表示上下文中的子字符，si表示目标字wi的子字符。

D表示为训练语料库，W =（w 1，w 2，...，w N）作为单词的词汇，C =（c 1，c 2，...，c M）作为词汇表。字符S =（s 1，s 2，...，s K）作为子字符的词汇，T 作为上下文窗口大小。如图所示，JWE旨在最大化目标词wi的三个预测条件概率的对数似然和：

其中hi1，hi2，hi3分别是上下文单词，上下文字符，上下文子字符的组合。设Vwi，Vci，Vsi分别是字wi，字符ci和子字符si的“输入”矢量，Vwi是字wi的“输出”矢量。条件概率由softmax函数定义如下：

其中hi1是上下文中单词“输入”向量的平均值，即：

类似地，hi2是上下文中字符“输入”向量的平均值，hi3是上下文或目标字中的子字符“输入”向量的平均值或全部。给定语料库D，JWE最大化整体对数可能性：

优化遵循CBOW模型中使用的负采样的实现。(Mikolov et al., 2013a)

这个目标函数不同于MGE（Yin et al，2016）。对于目标词wi，MGE的目标函数几乎等于最大化条件概率

P（w i | h i1 + h i 2 + h i 3）。在反向传播期间，我们的模型中h i 1，h i 2，h i 3的梯度可以是不相同的，但在MGE中总是相同。因此，我们模型中单词，字符和子字符组件的表示是分离的，并且可以得到更好地训练。在（Sunet al，2016a）中使用类似的解耦目标函数来学习英语单词嵌入和短语嵌入。我们的模型与他们的模型的不同之处在于，我们结合了上下文单词和目标单词的子词来预测目标，然而他们使用目标英语单词的词素来预测。

此模型的原文作者在GitHub上上传了模型原码以供大家参考和使用。若看过word2vector原码的话。。。

https://github.com/ HKUST-KnowComp/JWE

原文的实验及结果分析在这就不放了，有兴趣的话可以去看看原文：

http://www.aclweb.org/anthology/D/D17/D17-1027.pdf