nn.Embedding(num_embeddings, embedding_dim, padding_idx)

chenxi yan

已于 2023-05-08 21:22:43 修改

阅读量219

点赞数

分类专栏： PyTorch 学习文章标签： pytorch 深度学习

于 2023-04-09 11:30:29 首次发布

本文链接：https://blog.csdn.net/qq_43148788/article/details/130039711

版权

PyTorch 学习专栏收录该内容

8 篇文章 0 订阅

订阅专栏

nn.Embedding(num_embeddings, embedding_dim, padding_idx)

简单来说就是一个嵌入层，输入词表大小和词表示的维度，输出词表中的每个词用embedding_dim维的向量表示的结果。

定义：存储固定大小字典的词嵌入查找表
input：任意形状的 IntTensor或LongTensor (n, d)，其中的元素要小于num_embeddings
output：(n, d, a) # 词数，词维度，词向量维度
参数：词表大小----词嵌入表示维度-----填充索引， num_embeddings >= nd
为了保持句子长度等长，所以需要对较短句子进行padding

举例

实例化词嵌入对象

embeder = torch.nn.Embedding(5, 4, padding_idx=2)
embeder.weight
"""在这里，padding_idx代表需要填充的词索引，默认填充0"""
Parameter containing:
tensor([[-0.9215, -0.6851, -0.1972, -1.2832],
        [-0.2189,  0.5643, -1.2452,  0.9586],
        [ 0.0000,  0.0000,  0.0000,  0.0000],
        [-1.4466, -0.0685,  0.3057,  2.1399],
        [-1.9602, -0.9143,  0.6579, -1.0564]], requires_grad=True)

词嵌入表示

words = torch.LongTensor([[1, 2], [3, 4])
# 长度一个是1，一个是2，所以第一个要补零哦
embeder(words)  # 把每个词用4维向量表示
"""这里的话，words中需要填充的位置设成padding_idx, 表示时就可以填充了"""
tensor([[[-0.2189,  0.5643, -1.2452,  0.9586],
         [ 0.0000,  0.0000,  0.0000,  0.0000]],

        [[-1.4466, -0.0685,  0.3057,  2.1399],
         [-1.9602, -0.9143,  0.6579, -1.0564]]], grad_fn=<EmbeddingBackward0>)

chenxi yan

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
nn.Embedding(num_embeddings, embedding_dim, padding_idx)

【代码】nn.Embedding(num_embeddings, embedding_dim, padding_idx)
复制链接

扫一扫

专栏目录