pytorch中的Embedding

最新推荐文章于 2024-07-30 09:45:58 发布

栽娃

最新推荐文章于 2024-07-30 09:45:58 发布

阅读量2.4k

点赞数 1

分类专栏： NLP python 文章标签： pytorch 深度学习人工智能 1024程序员节

本文链接：https://blog.csdn.net/szn1043862535/article/details/120926315

版权

NLP 同时被 2 个专栏收录

6 篇文章 0 订阅

订阅专栏

python

6 篇文章 0 订阅

订阅专栏

S1=“你是个栽娃”,S2=“我是中国人”
L1=[“你”,“是”,“个”,“栽”,“娃”],L2=[“我”,“是”,“中”,“国”,“人”]
L_total=[“你”,“是”,“个”,“栽”,“娃”,“我”,“中”,“国”,“人”]
对L_total进行编号放到一个字典中
dict=｛“你”：0,“是”：1,“个”：2,“栽”：3,“娃”：4,“我”：5,“中”：6,“国”：7,“人”：8｝
有这样一个新的句子
"我是栽娃"对应的编号组成向量[4,1,2,3]
(正常情况下会有个固定的向量长度，长度不够的会用"pad"填充，考虑到测试集中还会出现别的训练集没出现的字，还有有个”unk"来填充）
这里暂且不考虑这些情况。
pytorch中的torch.nn有这样一个类Embedding
embedding= nn.Embedding(dict_len,Embedding_dim)
dict_len:代表的是你的训练集组成词典的总长度
Embedding_dim：就是把[4,1,2,3]中的一个item化为Embedding_dim长度的向量

import torch.nn as nn
import torch
dict1={"你":0,"是":1,"个":2,"栽":3,"娃":4,"我":5,"中":6,"国":7,"人":8}
Embedding_dim=50 #看你自己想要多少维的
dict_len=len(dict1)
embedding= nn.Embedding(dict_len,Embedding_dim)
input=[[4,1,2,3]]
input = torch.LongTensor(input)
print(input.size())# (1,4)
x=embedding(input)
print(x.size())#(1,4,50)

可以这样想有个长方形（1，4）想象成长方体的一个面，然后你把这个4向后扩充，变为一个（1，4，50）的长方体。

栽娃

关注

1
点赞
踩
5

收藏

觉得还不错? 一键收藏
4
评论
pytorch中的Embedding

S1=“你是个栽娃”,S2=“我是中国人”L1=[“你”,“是”,“个”,“栽”,“娃”],L2=[“我”,“是”,“中”,“国”,“人”]L_total=[“你”,“是”,“个”,“栽”,“娃”,“我”,“中”,“国”,“人”]对L_total进行编号放到一个字典中dict=｛“你”：0,“是”：1,“个”：2,“栽”：3,“娃”：4,“我”：5,“中”：6,“国”：7,“人”：8｝有这样一个新的句子"我是栽娃"对应的编号组成向量[4,1,2,3](正常情况下会有个固定的向量长度..
复制链接

扫一扫

专栏目录