embedding 使用

最新推荐文章于 2024-09-03 16:34:44 发布

weixin_42245626

最新推荐文章于 2024-09-03 16:34:44 发布

阅读量848

点赞数

文章标签： pytorch 深度学习

本文链接：https://blog.csdn.net/weixin_42245626/article/details/122496338

版权

根据我遇到的情况来说首先要进行labelencoder 把每个不同的词变成变成从0开始的数字，torch.nn.embedding中的第一个参数就是数字个数。

例如 i think i am a good student 一共6个不同的单词0-5

from sklearn.preprocessing import LabelEncoder
s=['i' ,'think' ,'i' ,'am', 'a' ,'good' ,'student']
lbe = LabelEncoder()
s=lbe.fit_transform(s)

结果为s= [3 5 3 1 0 2 4]

然后加入代码

embedding = nn.Embedding(3, 4)
input = torch.LongTensor(s)
print(embedding(input))

报错！！！！！！！

第一个参数是3 代表你的s里最大的值需要是2 ，现在最大的值为5，则需要至少是6，如果把s里面的4改成7，则第一个参数还要改成8（最少是8，9也行），根据最大的数字来的。不过不知道设置的很大会怎么样。

tensor([[-0.4240, 1.0930, 0.2586],
[ 0.0615, -2.4276, -1.4686],
[-0.4240, 1.0930, 0.2586],
[ 1.0664, 0.5222, -0.0724],
[-2.6286, -0.0839, -0.0070],
[ 2.4751, -0.2994, 0.5401],
[ 1.1925, -0.6344, -1.5841]]

经过改成6 输入这个，第一行第三行相同，代表3这个数字，即i单词。

查的时候怎么查呢

这是个权重矩阵，需要训练的，如果要查i，就是先查他对应的索引，索引对应一行。

padding_index不为空的话就把那行回应的向量变成0.

例如 padding_idx=0，表示0对应的那行就是单词a 给他变成0，具体用处还没学。

这个是用labelencoder使用embedding

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

weixin_42245626

关注关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

ChatGPT｜语义检索，利用Embedding优化你的搜索功能

05-28

Embedding 向量适合作为一个中间结果，用于传统的机器学习场景，比如分类、聚类。而 Completion 接口，一方面可以直接拿来作为一个聊天机器人，另一方面，你只要善用提示词，就能完成合理的文案撰写、文本摘要、...

Pytorch中的嵌入实例 nn.Embedding(max_type+3, args.features, padding_idx=0) 的解释

行子的博客

06-25

353

类的实例，可以作为神经网络中的一层使用。在网络的前向传播过程中，该层接收类型索引的张量作为输入，并将它们转换为对应的稠密嵌入向量。嵌入向量可以进一步由网络中的其他层进行处理。是一个 PyTorch 函数调用，用于创建神经网络模型的嵌入层。：这个参数指定了填充类型在词汇表中的索引。填充索引用于表示输入序列中的填充元素，的大小，或者数据集中唯一类型或标记的最大数量。词汇表中的每个类型或标记将被表示为一个具有。：这个参数确定了嵌入向量的大小，也就是。表示索引为 0 的类型被用作。个唯一类型，并且额外的。

参与评论您还未登录，请先登录后发表或查看评论

nn.Embedding中padding_idx的理解

FY_2018的博客

07-08

2355

每个句子的长度并不一定是等长的, 这时候就需要对较短的句子进行padding, nn.Embedding中padding_idx是指定padding的索引值。 #实例化词嵌入对象，序列进行padding时补padding_idx。当采用补0的方式，padding_idx =0 #这里的词空间大小为5，词嵌入维度大小为7 embeder = nn.Embedding(5,7,padding_idx=0) print(embeder.weight) #padding_idx的位置为全0 print('*.

【深度学习与NLP】——词嵌入Embedding技术

最新发布

lingxw的博客

09-03

2029

词嵌入（Embedding）技术是一种将词汇映射到低维连续向量空间的方法。将离散的单词数据处理成连续且固定长度的向量，使模型可以学习和处理语义信息。

Embedding之padding_idx学习

MyHeartWillGoOn

01-06

2776

文章目录题目解释举例case1:padding_idx=Nonecase2:padding_idx=0case3:padding_idx=3case4:padding_idx=3,将单词顺序变化题目 padding_idx学习解释 Embedding类参数含义 padding_idx (int, optional) If specified, the entries at :attr:padding_idx do not contribute to the gradient; th

深入理解padding_idx(nn.Embedding、nn.Embedding.from_pretrained）

qq_43391414的博客

03-23

4245

文章目录参数含义这个参数出现在一些地方，例如： nn.Embedding、nn.Embedding.from_pretrained。 import torch import torch.nn as nn import torch.optim as optim 参数含义如下： padding_idx (int, optional) – If specified, the entries at padding_idx do not contribute to the gradient; therefor

关于nn.embedding的中padding_idx的含义

a857553315的博客

07-06

9495

自然语言中使用批处理时候, 每个句子的长度并不一定是等长的, 这时候就需要对较短的句子进行padding, 填充的数据一般是0, 这个时候, 在进行词嵌入的时候就会进行相应的处理, nn.embedding会将填充的映射为0 其中padding_idx就是这个参数, 这里以3 为例, 也就是说补长句子的时候是以3padding的, 这个时候我们液晶padding_idx设为3 import torch import torch.nn as nn embed = nn.Embedding(10, 3,

myEmb_embedding_

10-03

在IT领域，嵌入（Embedding）是一种将非结构化数据转换为低维向量空间中的数值表示的技术，常用于自然语言处理、图论和推荐系统等。在本项目"myEmb_embedding_"中，我们将探讨如何对网络数据，特别是用networkx库...

embedding理解.pdf

04-08

例如，在自然语言处理任务中，可能使用上下文的相似性作为损失函数的一部分；而在推荐系统中，则可能会考虑用户行为的预测误差。 #### 五、应用案例分析本文作者提到了一个实际的应用案例——构建一个基于维基...

pytorch中的embedding词向量的使用方法

09-18

本文将详细介绍如何在PyTorch中使用embedding词向量。首先，要使用PyTorch中的embedding词向量，需要导入必要的模块。通常我们会从PyTorch库中导入torch模块，以及torch.nn模块，后者包含了各种神经网络层的实现。...

embedding_dimension.rar_embedding dimension

07-15

計算embedding dimension. 可檢測時間序列之embedm, fnn1, fnn2三數值

torch.nn.Embedding()参数讲解

LIYUO94的博客

11-14

2753

nn.Embedding(26, self.dim,padding_idx=0) num_embeddings：表示词典中词的数量 embedding_dim：表示每个词对应的向量维度 import torch import torch.nn as nn embed = nn.Embedding(10, 3, padding_idx=0) # padding_idx 默认是0 # 最终向量中的值为0的继续嵌入为0，如果设置为3的话，那么向量中值为3的位置的向量也将嵌入为0 embed.weight

torch.nn.Embedding()中的padding_idx参数解读

weixin_40426830的博客

09-29

9249

torch.nn.Embedding() Word Embedding 词嵌入，就是把一个词典，随机初始化映射为一个向量矩阵。列如：有一组词典，有两个词“hello”和“world”，对应的值为0和1.通过pytorch中的torch.nn.Embedding()建立一个2x10的向量矩阵，其中2表示词典中词的数量，10表示每个词对应的向量大小。 word_to_id = {'hello':0, 'world':1} embeds = nn.Embedding(2, 10) hello_idx = tor

【pytorch框架学习】nn.Embedding中的padding_idx用法示意

qq_42961603的博客

08-22

1760

import torch import torch.nn as nn embedding1 = nn.Embedding(10,3) embedding1.weight Parameter containing: tensor([[-0.9116, 0.5195, -1.3509], [ 0.5670, 0.8024, -0.0373], [-0.8223, -1.2181, -0.6713], [-1.2734, -1.0591, -1.1202],

推荐系统实战3——推荐系统中Embedding层工作原理浅析

Bubbliiiing的学习小课堂

11-22

6107

nn.Embedding 理解及其参数 padding_idx含义

Carl_changxin的博客

03-03

595

误区文章：https://blog.csdn.net/weixin_38257276/article/details/114195454。看到一些文章对Embedding层理解上存在误区，故贡献一点自己的想法。

【pytorch】有关nn.EMBEDDING的简单介绍

安安爸Chris的专栏

09-29

4350

假设有一本字典，就一共只有10单词，每个单词有5个字母组成。每一页上只写一个单词，所以这10页纸上分别写了这10个单词。内如如下，我们假定这本字典叫, 这里的10和5即上面介绍的含义，10个单词，每个单词5个字母；现在我要查看第2页和第3页（从0开始），那么我会得到 [s,m,a,l,l]， [w,a,t,c,h] 内容。假定我们约定一个暗号，你告诉我页数，我就返回对应页数的单词。如，你发给我暗号 [ [2,3], [1,0], [8,6] ] (

PyTorch 稀疏函数解析：embedding 、one_hot详解

CDBmax的博客

01-17

1744

本篇博客探讨了 PyTorch 框架中几个关键的稀疏函数，包括embedding和one_hot。这些函数在处理自然语言处理（NLP）任务和其他需要高效、灵活处理大量类别或序列数据的应用中至关重要。embedding函数用于从预定义的嵌入矩阵中检索指定索引的嵌入向量，支持自定义嵌入矩阵大小、填充索引和范数限制。提供了一种高效的方法来处理变长序列，通过聚合（如求和、均值或最大值）嵌入向量，而无需单独处理每个序列。one_hot。

查看自己的网络结构

绿箭薄荷的博客

12-05

1872

查看网络 BertForJointSpanExtractAndClassification( (bert): BertModel( (embeddings): BertEmbeddings( (word_embeddings): Embedding(30522, 768, padding_idx=0) (position_embeddings): Embedding(512, 768) (token_type_embeddings): Embedding(2,

embedding 使用参数说明

06-01

在PyTorch中，可以使用torch.nn.Embedding来实现Embedding层。其参数说明如下： - num_embeddings：int类型，表示词汇表的大小或者字符集的大小。 - embedding_dim：int类型，表示Embedding向量的维度。 - padding_...