embedding计算过程(错了跟我讲,我会改)
参考示例
https://www.jianshu.com/p/63e7acc5e890
个人理解过程图示
待上传
代码
import torch
import torch.nn as nn
num_embeddings = 7 # 至少要是7
embedding_dim = 4
# 其实是[2,5],[5,1],[3,4],[1,6]
# and every single number is a one-hot vector,its length is num_embeddings
# finally input becomes a 3-dim vector, the third-dim length is embedding_dim
# out shape : (2,4,4)
input = torch.LongTensor([[2, 5, 3, 1], [5, 1, 4, 6]])
embedding = nn.Embedding(num_embeddings=num_embeddings, embedding_dim=embedding_dim)
out = embedding(input)
print("input:", input)
print("embedding parms:", embedding.weight)
print("out:", out)
总结(基于pytorch)
-
总的来说,就是将独热向量的长度(对应嵌入层的num_embeddings)转变为嵌入层的emdedding_size(而独热向量的维数就是你的数据中一共产生了多少个不一样的词,至少是这么多)。
-
数据的变化,将二维的数据(如果算上独热的那维就是三维)转变为三维的数据。前两维一样,第三维的变化如第一点所述。