深度学习：词嵌入Embedding

最新推荐文章于 2025-10-07 20:24:27 发布

原创最新推荐文章于 2025-10-07 20:24:27 发布 · 5.3w 阅读

159 ·

CC 4.0 BY-SA版权

文章标签：

#Embedding #深度学习

深度学习DeepLearning 专栏收录该内容

38 篇文章

订阅专栏

本文探讨了词嵌入的概念及应用，包括One-hot编码、低维embedding的实现方法及其在TensorFlow中的应用。此外还介绍了词嵌入的多种方法如word2vec，并讨论了句子embedding的不同方式。

http://blog.csdn.net/pipisorry/article/details/76095118

词嵌入

词嵌入其实就是将数据的原始表示表示成模型可处理的或者是更dense的低维表示（lz）。

One-hot Embedding

假设一共有个物体，每个物体有自己唯一的id，那么从物体的集合到 $\mathbb R^m$ 有一个trivial的嵌入，就是把它映射到 $\mathbb R^m$ 中的标准基，这种嵌入叫做One-hot embedding/encoding.

[数据预处理：独热编码（One-Hot Encoding）]

一般使用的低维embedding

应用中一般将物体嵌入到一个低维空间 $\mathbb R^n$ $(n \ll m)$ ，只需要再compose上一个从 $\mathbb R^m$ 到 $\mathbb R^n$ 的线性映射就好了。每一个 $n\times m$ 的矩阵都定义了 $\mathbb R^m$ 到 $\mathbb R^n$ 的一个线性映射: $x \mapsto Mx$ 。当是一个标准基向量的时候，对应矩阵中的一列，这就是对应id的向量表示。

这个概念用神经网络图来表示如下：

从id(索引)找到对应的One-hot encoding，然后红色的weight就直接对应了输出节点的值(注意这里没有activation function)，也就是对应的embedding向量。

Note:

1 M随机初始化并且是可训练的，查找x对应的embedding表示其实等价于找x在下面这个网络中的权重，而这些权重是可训练的，且对应于矩阵M。

2 关于嵌入维度数量（New Embedding维度）的一般经验法则：

embedding_dimensions = number_of_categories**0.25

也就是说，嵌入矢量维数应该是类别数量的 4 次方根。如词汇量为 81，建议维数为 3。

低维向量嵌入在tensorflow中的实现：tf.nn.embedding_lookup()

    embedding_map = tf.get_variable(  # 默认参数trainable = True，可训练
        name="embedding_map",
        shape=[self.config.vocab_size, self.config.embedding_size],
        initializer=self.initializer)
    seq_embeddings = tf.nn.embedding_lookup(embedding_map, self.input_seqs)

和下面类似：

matrix = np.random.random([1024, 64])  # 64-dimensional embeddings
ids = np.array([0, 5, 17, 33])
print matrix[ids]  # prints a matrix of shape [4, 64]

从id类特征（category类）使用embedding_lookup的角度来讲：

1、onehot编码神经网络处理不来。embedding_lookup虽然是随机化地映射成向量，看起来信息量相同，但其实却更加超平面可分。

2、embedding_lookup不是简单的查表，id对应的向量是可以训练的（带有label信息），训练参数个数应该是 category num*embedding size，也就是说lookup是一种全连接层。详见 brain of mat kelcey

3、word embedding其实是有了一个距离的定义，即出现在同一上下文的词的词向量距离应该小，这样生成向量比较容易理解。autoencode、pca等做一组基变换，也是假设原始特征值越接近越相似。但id值的embedding应该是没有距离可以定义，没有物理意义，只是一种特殊的全连接层。

4、用embedding_lookup做id类特征embedding由google的deep&wide提出。阿里第七章人工智能，7.6 DNN在搜索场景中的应用(作者：仁重) 中提下了面对的困难，主要是参数数量过多（引入紫色编码层）和要使用针对稀疏编码特别优化过的全连接层( Sparse Inner Product Layer )等。

5、在分类模型中用这种id类特征，主要是希望模型把这个商品记住。但id类特征维度太高，同一个商品的数据量也不大，因此也常常用i2i算法产出的item embedding来替代id特征。

[tf.nn.embedding_lookup函数原理？]

[求通俗讲解下tensorflow的embedding_lookup接口的意思？]

[tf.nn.embedding_lookup]

[what-does-tf-nn-embedding-lookup-function-do]

某小皮

词嵌入有其它很多方法如word2vec,bert等，embedding lookup只是其中一种。我们可以只使用简单的embedding lookup让模型自己去训练；也可以将embedding lookup中的矩阵先通过word2vec训练好进行初始化，再通过embedding lookup训练；或者只使用vord2vec进行初始化后，embedding lookup设置成不训练。

Word2vec

[深度学习：词嵌入之word2vec]

其它的Word Representation

Word level representation from characters embeddings Bidirectional LSTM on top of word representation to extract contextual representation of each word

右图中的context应该是指句子的上下文。

[Sequence Tagging with Tensorflow]

句子embedding

1 词向量直接求平均或者最大值：对句子中所有单词直接求平均, 每个单词的权重相同, 得到sentence embedding。

2 使用每个词的TF-IDF值为权重, 加权平均, 得到sentence embedding。

3 sif sentence embedding使用预训练好的词向量, 使用加权平均的方法, 对句子中所有词对应的词向量进行计算, 得到整个句子的embedding向量：模型的输入是一个已有的word embedding，然后通过加权求平均的方法求得sentence的embedding，最后使用主成分分析去掉一些special direction，即在完成词加权平均之后，移除所有行为向量的公共主成分：v_s -= u*u^t*v_s。

其中v_s表示加权平均之后的结果，u表示所有句子向量进行特征分解之后，最大特征值对应的特征向量，相当于所有句子向量的最大主成分，这样就把所有行为链路中彼此相关的一部分去除，只保留反应序列特性的成分。
[论文阅读 A SIMPLE BUT TOUGH-TO-BEAT BASELINE FOR SEN- TENCE EMBEDDINGS]

[A simple but tough-to-beat baseline for sentence embedding]

词向量维度的选择

On the Dimensionality of Word Embedding

词向量集合的距离度量：PIP loss，基于此可以选择最优词向量维度

文章分析了LSA, Word2vec, Glove对于不同任务的最优维度

[On the Dimensionality of Word Embedding]

from: http://blog.csdn.net/pipisorry/article/details/76095118

ref: [tensorflow对嵌入概念的解释]

[深度学习、NLP 和表示法（Chris Olah 的博客）]

[TensorFlow Embedding Projector]

23 条评论

olixiango 2019.05.27
您好请问关于求embedding向量有几个问题和您请教，比如我有一个1000个类别的离散特征，按说需要先把这个特征变为1000维的onehot送给神经网络训练， 1，送给神经网络时是否需要把其他特征和这个onehot组合在一起送给神经网络训练？ 2，训练embeding的网络是否应该只有一个隐层，只为训练嵌入向量就行了 2，onehot需要做处理么，实验发现，onehot太稀疏，训练效果很差，需要怎么处理或解决么？ 3，如果onehot不做处理，又直接和所有其他特征一起处理，那不其实就已经完成训练了吗，求出的embeding向量的意义在哪？理解可能有误区，谢谢！
- 慢慢变强的me回复olixiango 2019.08.23
  [reply]olixiango[/reply] 我看完你所描述的问题，感觉是要问：one-hot 编码后去look_up tabel 找词嵌入向量（可以随机给出）不一定是很稀疏的one-hot向量来做词潜入。也可以是类似于这种[0,0,0,0,1,0,1,01,0]作为look_up table的输入获取词向量。也可以这样输入直接是一个全语料字典（可以是词级别的也可以是字符级别的）的id向量，这样利用look_up table 也能对一句话进行词嵌入。
- olixiango回复-柚子皮- 2019.07.07
  [reply]pipisorry[/reply] 不好意思最近没上，好的我试试，谢谢楼主耐心的解释！！
- -柚子皮-回复olixiango 2019.05.29
  [reply]olixiango[/reply] 如果你是要得到embedding矩阵那不能把onehot和其他特征一起输入，onehot单独输入一个隐层的没有激活函数的网络，其输出再和其他特征一起输入到后面的n层神经网络。embedding矩阵就是onehot单独输入一个隐层的权值矩阵W。
- olixiango回复-柚子皮- 2019.05.29
  [reply]pipisorry[/reply] 您好，多谢回复，我没表述好，这个embedding矩阵应该怎么得来，我理解是把onehot和其他特征输入神经网络，然后只用一个隐层，去训练，这一层权值矩阵W中，对应输入中onehot输入单元位置的那些行就是embedding矩阵，这个流程没问题吧？但是在这个过程中发现输入太稀疏，导致训练没有不出好结果，也就得不到很好embedding矩阵，这个情况正常吗？再次感谢！
- -柚子皮-回复olixiango 2019.05.28
  [reply]olixiango[/reply] 1 对，只是其中一种做法而已。2 不同网络结构是用来看的启发的，不是直接拿来用的。你这个问题也好解决，onehot向量单独查自己的embedding，是一个一隐层网络，之后再将onehot后面的输出embedding和其它特征合并进行后面的网络计算，可以试试效果。 3 embedding和所以降维技术目标类似，减少维度，增加语义相似的意义。

weixin_40514296 2019.03.26
这些权重是可训练的，且对应于矩阵M，请问embedding_lookup是如何去训练的呢？
- weixin_40514296回复-柚子皮- 2019.03.27
  [reply]pipisorry[/reply] 好的谢谢
- -柚子皮-回复weixin_40514296 2019.03.27
  [reply]weixin_40514296[/reply] 不是的
- weixin_40514296回复-柚子皮- 2019.03.27
  [reply]pipisorry[/reply]感谢，请问您是学生吗？
- -柚子皮-回复weixin_40514296 2019.03.27
  [reply]weixin_40514296[/reply] 是的
- weixin_40514296回复-柚子皮- 2019.03.27
  [reply]pipisorry[/reply] 也就是说可以用tf.get_variable()初始化一个embedding矩阵，然后将这个矩阵由输入和输出来训练，最终得到我们的词嵌入对原始feature降维.吧？
- -柚子皮-回复weixin_40514296 2019.03.26
  [reply]weixin_40514296[/reply] 训练集中每个或者一般每batch个离散的输入（features）都对应一个label，那个label就是它的输出，通过这个来训练。tf.get_variable()是搞个矩阵出来，embedding_lookup就是取出每个输入的embedding，而这个embedding是一个变量（从tf.get_variable()出来的）可训练，当然如果不是从tf.get_variable()出来的，而是直接从一个固定矩阵取值，那就是定量，不可训练。
- weixin_40514296回复-柚子皮- 2019.03.26
  [reply]pipisorry[/reply]那对于一个离散的输入转化为embedding时候，它的输出（label）是什么？，一般不是采用df.get_variable()来获取这个embedding矩阵的吗?
- -柚子皮-回复weixin_40514296 2019.03.26
  [reply]weixin_40514296[/reply] 和整个模型一起训练，也是反向传播，如果使用框架，自动训练

wzw&weiye 2018.03.19
博主，你好，我最近在学习embedding相关的东西，但是对于你的题目。深度学习：embedding我产生了一个疑问。embedding真的是属于深度学习的范围吗？
- -柚子皮-回复wzw&weiye 2018.03.25
  [reply]qq_28358305[/reply] embedding要严格来说，可以属于很多范畴，比如深度学习、神经网络、自然语言处理，这些都可以算，重要的是学习这个技术

Ryan丿Limit 2017.08.30
嘻嘻，挺漂亮啊！

StudyAi_com_ 2017.08.01
厉害手绘版

言若、 2017.07.31
数学果然是科学之母啊。

「已注销」 2017.07.26
除了图片有一些问题，其他的都挺详细的
- -柚子皮-回复「已注销」 2017.07.26
  [reply]wjf1997[/reply] 图片问题已修复

「已注销」 2017.07.26
图片需要重新上传呢哈~
- -柚子皮-回复「已注销」 2017.07.26
  [reply]soledadzz[/reply] 好的，多谢提醒，回去再看看
- 「已注销」回复-柚子皮- 2017.07.26
  [reply]pipisorry[/reply] 你的是缓存，所以看到的正常。
- -柚子皮-回复「已注销」 2017.07.26
  [reply]soledadzz[/reply] 是显示有问题?我这里正常的