PyTorch中的Embedding

最新推荐文章于 2024-08-11 20:33:24 发布

Mark_Aussie

最新推荐文章于 2024-08-11 20:33:24 发布

阅读量668

点赞数

分类专栏： nlp 文章标签：深度学习

本文链接：https://blog.csdn.net/markaustralia/article/details/129852689

版权

nlp 专栏收录该内容

60 篇文章 3 订阅

订阅专栏

Embedding 可理解为存储固定大小的词典的嵌入向量的查询表，根据编号，嵌入层返回对应的嵌入向量，嵌入向量反映了编号代表的符号之间的语义关系，输入为一个编号列表，输出为对应的符号嵌入向量列表。

torch.nn.Embedding(num_embeddings, embedding_dim, padding_idx=None, max_norm=None, norm_type=2.0, scale_grad_by_freq=False, sparse=False, _weight=None)

num_embeddings (python:int)：词典的大小尺寸，比如总共出现5000个词，则为5000，index为（0-4999）
embedding_dim (python:int) – 嵌入向量的维度，即用多少维来表示一个符号。
padding_idx (python:int, optional)：填充id，比如，输入长度为100，句子长度不一样，需要用统一数字填充，指定填充数字，网络学习时遇到填充 id 就不会计算其相关性，默认 0。
max_norm (python:float, optional)：最大范数，如果嵌入向量的范数超过了这个界限，就要进行再归一化。
norm_type (python:float, optional)：范数计算方式，并对比max_norm，默认为2-范数。
scale_grad_by_freq (boolean, optional)：根据单词在mini-batch中出现的频率，对梯度进行放缩，默认：False。
sparse (bool, optional)：True表示与权重矩阵相关的梯度转变为稀疏张量。

import torch.nn as nn
index_tensor = torch.LongTensor([[3, 6, 5, 6, 7, 1], [6, 4, 7, 9, 5, 1]])
embed = nn.Embedding(10, 2, padding_idx=0)

如上样例，词典大小为 10，最大index为 9，词向量维度为 2。

参考：

通俗讲解pytorch中nn.Embedding原理及使用-CSDN博客

Mark_Aussie

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录