TF中的Embedding操作

最新推荐文章于 2024-04-24 22:46:10 发布

NLP蜗牛

最新推荐文章于 2024-04-24 22:46:10 发布

阅读量1k

点赞数

分类专栏： tensorflow问题

本文链接：https://blog.csdn.net/weixin_41845265/article/details/104124079

版权

tensorflow问题专栏收录该内容

6 篇文章 0 订阅

订阅专栏

1、什么是embedding

简单的说就是将一个特征转换为一个向量。

我们经常会遇到一些离散特征，我们一般的做法是将其转换为one-hot，但对于itemid这种离散特征，转换成one-hot之后维度非常高，但里面只有一个是1，其余都为0。这种情况下，我们的通常做法就是将其转换为embedding。

embedding的过程是什么样子的呢？它其实就是一层全连接的神经网络，如下图所示：在这里插入图片描述
假设一个特征共有5个取值，也就是说one-hot之后会变成5维，我们想将其转换为embedding表示，其实就是接入了一层全连接神经网络。由于只有一个位置是1，其余位置是0，因此得到的embedding就是与其相连的图中红线上的权重。

2、在tf1.x中，我们使用embedding_lookup函数来实现emeddingembedding lookup是从一个矩阵中，根据id来索引对应的值，下面以例子俩说明代码如下：

tf.nn.embedding_lookup函数的用法主要是选取一个张量里面索引对应的元素。tf.nn.embedding_lookup（tensor, id）:tensor就是输入张量，id就是张量对应的索引，其他的参数不介绍。

embedding

embedding = tf.constant(
        [[0.21,0.41,0.51,0.11]],
        [0.22,0.42,0.52,0.12],
        [0.23,0.43,0.53,0.13],
        [0.24,0.44,0.54,0.14]],dtype=tf.float32)

feature_batch = tf.constant([2,3,1,0])

get_embedding1 = tf.nn.embedding_lookup(embedding,feature_batch)

在这里插入图片描述
注意这里的维度的变化，假设我们的feature_batch 是 1维的tensor，长度为4，而embedding的长度为4，那么得到的结果是 4 * 4 的，同理，假设feature_batch是2 *4的，embedding_lookup后的结果是2 * 4 * 4。后面我们在观察结果。

上文说过，embedding层其实是一个全连接神经网络层，那么其过程等价于：
在这里插入图片描述

embedding = tf.constant(
    [
        [0.21,0.41,0.51,0.11],
        [0.22,0.42,0.52,0.12],
        [0.23,0.43,0.53,0.13],
        [0.24,0.44,0.54,0.14]
    ],dtype=tf.float32)

feature_batch = tf.constant([2,3,1,0])
feature_batch_one_hot = tf.one_hot(feature_batch,depth=4)
get_embedding2 = tf.matmul(feature_batch_one_hot,embedding)

在这里插入图片描述
Embedding的含义，一定要正确理解，是给出一个矩阵，然后给出一个索引iD,根据索引在矩阵中寻找并根据id重新组成矩阵。

NLP蜗牛

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
TF中的Embedding操作

1、什么是embedding简单的说就是将一个特征转换为一个向量。我们经常会遇到一些离散特征，我们一般的做法是将其转换为one-hot，但对于itemid这种离散特征，转换成one-hot之后维度非常高，但里面只有一个是1，其余都为0。这种情况下，我们的通常做法就是将其转换为embedding。embedding的过程是什么样子的呢？它其实就是一层全连接的神经网络，如下图所示：假设一个特征...
复制链接

扫一扫

专栏目录