embedding计算过程

最新推荐文章于 2024-09-03 10:18:45 发布

hellopbc

最新推荐文章于 2024-09-03 10:18:45 发布

阅读量1.3k

点赞数

分类专栏： ML and DL 文章标签： pytorch embedding

本文链接：https://blog.csdn.net/qq_37774098/article/details/114334947

版权

ML and DL 专栏收录该内容

31 篇文章 1 订阅

订阅专栏

文章目录

embedding计算过程（错了跟我讲，我会改）

embedding计算过程（错了跟我讲，我会改）

参考示例

https://www.jianshu.com/p/63e7acc5e890

个人理解过程图示

待上传

代码

import torch
import torch.nn as nn

num_embeddings = 7 # 至少要是7
embedding_dim = 4  

# 其实是[2,5],[5,1],[3,4],[1,6]
# and every single number is a one-hot vector,its length is num_embeddings
# finally input becomes a 3-dim vector, the third-dim length is embedding_dim
# out shape : (2,4,4)
input = torch.LongTensor([[2, 5, 3, 1], [5, 1, 4, 6]])
embedding = nn.Embedding(num_embeddings=num_embeddings, embedding_dim=embedding_dim)
out = embedding(input)

print("input:", input)
print("embedding parms:", embedding.weight)
print("out:", out)

总结（基于pytorch）

总的来说，就是将独热向量的长度（对应嵌入层的num_embeddings）转变为嵌入层的emdedding_size（而独热向量的维数就是你的数据中一共产生了多少个不一样的词，至少是这么多）。
数据的变化，将二维的数据（如果算上独热的那维就是三维）转变为三维的数据。前两维一样，第三维的变化如第一点所述。