Embedding 层的pytorch代码及参考资源

最新推荐文章于 2024-06-17 14:11:25 发布

江流儿356

最新推荐文章于 2024-06-17 14:11:25 发布

阅读量335

点赞数

分类专栏： NLP自然语言处理文章标签：自然语言处理 pytorch 深度学习神经网络机器学习

原文链接：https://blog.csdn.net/weixin_43914889/article/details/104699657?utm_source=app&app_version=4.7.1

版权

NLP自然语言处理专栏收录该内容

1 篇文章 0 订阅

订阅专栏

Embedding 层的pytorch代码及参考资源

https://blog.csdn.net/weixin_43914889/article/details/104699657?utm_source=app&app_version=4.7.1

主要是搜集一些好资源，帮助自己复习。
Embedding层主要输入两个参数：vocab_size(训练数据总词汇数)，embedding_dim（词嵌入维度）

翻译一下

embedding层就是存储着有固定字典和尺寸的词嵌入的一个简单查询表
这个模块通常被用于存储词向量并且使用索引来实现词向量。
模型的输入是一个样本每个字对应的索引列表，输出是样本中的每个字相对应的词向量。
-输入和输出是关键点，输入是数字化列表，输出是对应的指定维度的词向量。

实际中可能也较少用到这个embedding 层，主要是可以用bert的预训练词向量。

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

江流儿356

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

入门学习Recurrent Neural Networks (RNNs)，并用PyTorch编写一些代码示例

程序员光剑

07-28

1064

2019年是深度学习的元年。这是一个由AI驱动的时代。深度学习和机器学习领域里最火热的研究方向之一是自然语言处理(NLP)和语音识别。这些技术的基础是深度神经网络。本文将会通过动手实践的方式，带领读者入门学习Recurrent Neural Networks (RNNs)，并用PyTorch编写一些代码示例。Recurrent Neural Networks (RNNs) 是一种深度神经网络模型，它可以处理序列数据。这种数据的特点是存在时间上的先后顺序，比如时间序列数据，或语言中的词汇顺序。

通过nn．Embedding来实现词嵌入

最新发布

程序员光剑

07-14

562

通过nn.Embedding来实现词嵌入 1. 背景介绍 1.1 问题的由来在自然语言处理（NLP）领域，文本数据通常以词语序列的形式出现。这些词语序列在机器学习模型中作为输入，而机器学习模型通常需要处理数值数据。因此，将文本转换为数值

参与评论您还未登录，请先登录后发表或查看评论

pytorch中的embedding词向量的使用方法

09-18

今天小编就为大家分享一篇pytorch中的embedding词向量的使用方法，具有很好的参考价值，希望对大家有所帮助。一起跟随小编过来看看吧

深度学习embedding方法，降维，以及pytorch中使用embedding

weixin_41106546的博客

04-24

3703

形式上讲，Embedding就是用。

Pytorch深度解析：Transformer嵌入层源码逐行解读

fengbeely的博客

06-17

731

Transformer实现以及Pytorch源码解读（一）-数据输入篇》作为知识储备。Embedding的过程，其实就是为每个单词对应一个向量的过程。该向量为（0，1）正太分布，该矩阵在Embedding的实例化过程就已经被初始化完成。在调用Embedding示例的时候即forward开始工作的时候，只是做了一个匹配的过程，也就是将的对应关系应用到input上。

PyTorch入门（八）Embedding层

山阴少年

03-19

1280

本文将会介绍PyTorch中的Embedding层

解释Pytorch 官方中文教程代码解析Word Embeddings词嵌入N-Gram语言模型

刺无名客的博客

09-18

643

源码见Pytorch官网，https://pytorch.apachecn.org/docs/1.0/nlp_word_embeddings_tutorial.html 分析写在注释了，有什么不足或者不对的地方，请回复讨论，加油 # 代码作者: Robert Guthrie import torch import torch.nn as nn import torch.nn.fun...

可直接运行基于pytorch vision transformer的乳腺癌图像分类完整代码+数据可直接运行毕业设计

11-18

本文将详细讲解如何使用PyTorch和Vision Transformer进行乳腺癌图像分类，以及如何结合这些资源进行毕业设计。PyTorch是一种流行的深度学习框架，而Vision Transformer（ViT）是Transformer架构在计算机视觉领域的...

PyTorch的Transformer模型用于构建和训练一个Transformer模型

08-15

为了更好地理解和应用Transformer模型，建议参考以下资源： - **PyTorch官方文档**：提供了丰富的API文档和示例代码。 - **Hugging Face Transformers库**：提供了大量预训练模型和示例，是实践Transformer模型的...

基于facenet_pytorch实现人脸识别

weixin_43102784的博客

09-09

1235

安装完成后C:\Users\Administrator.cache\torch\checkpoints 路径将会生成。

pytorch，position embedding 代码实现

Talk Is Cheap

02-20

4929

class PositionalEmbedding(nn.Module): def __init__(self, demb): super(PositionalEmbedding, self).__init__() self.demb = demb inv_freq = 1 / (10000 ** (torch.arange(0.0, d...

利用pytorch_pretrained_bert得到wordEmbedding (batch_size，1024),保存为稀疏矩阵sparse.dok_matrix( )

weishennuan8947的博客

07-16

3154

1.注意本方法只适用于保存2维embedding 因为直接将完整的Bert加入到其他模型中，训练时会出现内存不够用的情况，考虑将通过Bert得到的Embedding保存为文件，再在其他模型中导入使用，试过很多保存的方法(numpy.savetxt等)，都不成功，最后采用稀疏矩阵sparse.dok_matrix的方式保存wordEmbdedding,然后利用toarray()方法转换为矩阵形式，发...

Transformer实现以及Pytorch源码解读（二）-embedding源码分析

铁血军的小博客

12-20

2952

Embedding的过程源码解读

pytorch embedding层详解（从原理到实战）

热门推荐

skywf的博客

03-06

5万+

做nlp很多时候要用到嵌入层，pytorch中自带了这个层什么是embedding层这是一个写的比较好的我用最通俗的语言给你讲在nlp里，embedding层就是把单词表[‘你’，‘好’，‘吗’] 编码成 ‘你’ --------------[0.2,0.1] ‘好’ --------------[0.3,0.2] ‘吗’ --------------[0.6,0.5] 的向量的办...

【PyTorch】torch.data.Field 参数与方法详解 & Embedding 层浅谈

Esperanto.的博客

08-11

3302

Field → build_vocab → Embedding

pytorch——embedding层

七月听雪的博客

08-29

8094

深度学习框架主要是整明白，每一层的输入输出。是什么： embed = torch.nn.Embedding(n_vocabulary,embedding_size) embedding层（嵌入层）其实就是一个（n_vocabulary*embedding_size ）矩阵，n_vocabulary代表你有多少个词，embedding_size代表每一个词的词向量的维度。所以这个矩阵就是保...

pytorch的Embedding层

real_ilin的博客

05-25

2287

class torch.nn.Embedding(num_embeddings, embedding_dim, padding_idx=None, max_norm=None, norm_type=2, scale_grad_by_freq=False, sparse=False) num_embeddings (int) - 嵌入字典的大小 embedding_dim (int) - 每个嵌入向量的大小 padding_idx (int, optional) - 如果提供的话，输出遇到此下标时用零填充.

Transformer源码详解（Pytorch版本）逐行讲解

Queen_sy的博客

11-01

1万+

下面的PAD表示填充，填充就是当句子长度不满足max_len时候，会填充pad。## 这里有两个数据进行输入，一个是enc_inputs 形状为[batch_size, src_len]，主要是作为编码段的输入，一个dec_inputs，形状为[batch_size, tgt_len]，主要是作为解码端的输入。一定需要注意的是这里得到的矩阵形状是batch_size x len_q x len_k，我们是对k中的pad符号进行标识，并没有对q中的做标识，因为没必要（尚未理解，有理解的小伙伴评论私信奥）

【pyTorch】torch下的网络如何对文本进行embedding操作

zkq_1986的博客

11-16

2361

torch下的网络对文本进行embedding操作的代码示例如下： from torch import nn import torch from torch.nn import functional as F class TextNet(nn.Module): def __init__(self, vocab_size, seq_len,embedding_len, num_cl...

gcn 实现graph embedding代码pytorch

03-29

这里是一个简单的 gcn 实现的代码，用于实现图嵌入（graph embedding）任务。代码使用了 PyTorch 框架。 ``` python import numpy as np import torch import torch.nn as nn import torch.nn.functional as F from torch.utils.data import Dataset, DataLoader class GraphConvolution(nn.Module): def __init__(self, in_features, out_features): super(GraphConvolution, self).__init__() self.weight = nn.Parameter(torch.FloatTensor(in_features, out_features)) self.bias = nn.Parameter(torch.FloatTensor(out_features)) self.reset_parameters() def reset_parameters(self): nn.init.xavier_uniform_(self.weight) nn.init.zeros_(self.bias) def forward(self, input, adj): support = torch.mm(input, self.weight) output = torch.spmm(adj, support) output = output + self.bias return output class GCN(nn.Module): def __init__(self, nfeat, nhid, nclass, dropout): super(GCN, self).__init__() self.gc1 = GraphConvolution(nfeat, nhid) self.gc2 = GraphConvolution(nhid, nclass) self.dropout = dropout def forward(self, x, adj): x = F.relu(self.gc1(x, adj)) x = F.dropout(x, self.dropout, training=self.training) x = self.gc2(x, adj) return x class GraphDataset(Dataset): def __init__(self, adj, features, labels): self.adj = adj self.features = features self.labels = labels def __len__(self): return len(self.labels) def __getitem__(self, idx): return self.adj[idx], self.features[idx], self.labels[idx] def train(model, optimizer, criterion, train_loader, device): model.train() for adj, features, labels in train_loader: adj, features, labels = adj.to(device), features.to(device), labels.to(device) optimizer.zero_grad() output = model(features, adj) loss = criterion(output, labels) loss.backward() optimizer.step() def evaluate(model, criterion, val_loader, device): model.eval() total_loss = 0.0 total_correct = 0 with torch.no_grad(): for adj, features, labels in val_loader: adj, features, labels = adj.to(device), features.to(device), labels.to(device) output = model(features, adj) loss = criterion(output, labels) total_loss += loss.item() * len(labels) pred_labels = output.argmax(dim=1) total_correct += pred_labels.eq(labels).sum().item() return total_loss / len(val_loader.dataset), total_correct / len(val_loader.dataset) def main(): # load data adj = np.load('adj.npy') features = np.load('features.npy') labels = np.load('labels.npy') # split data train_idx = np.random.choice(len(labels), int(len(labels)*0.8), replace=False) val_idx = np.setdiff1d(np.arange(len(labels)), train_idx) train_adj, train_features, train_labels = adj[train_idx], features[train_idx], labels[train_idx] val_adj, val_features, val_labels = adj[val_idx], features[val_idx], labels[val_idx] # create data loaders train_dataset = GraphDataset(train_adj, train_features, train_labels) val_dataset = GraphDataset(val_adj, val_features, val_labels) train_loader = DataLoader(train_dataset, batch_size=32, shuffle=True) val_loader = DataLoader(val_dataset, batch_size=32, shuffle=False) # create model device = torch.device('cuda' if torch.cuda.is_available() else 'cpu') model = GCN(nfeat=features.shape[1], nhid=16, nclass=labels.max().item()+1, dropout=0.5).to(device) # train model optimizer = torch.optim.Adam(model.parameters(), lr=0.01, weight_decay=5e-4) criterion = nn.CrossEntropyLoss() best_val_acc = 0.0 for epoch in range(100): train(model, optimizer, criterion, train_loader, device) val_loss, val_acc = evaluate(model, criterion, val_loader, device) if val_acc > best_val_acc: best_val_acc = val_acc torch.save(model.state_dict(), 'best_model.pt') print('Epoch: {:04d}'.format(epoch+1), 'loss_train: {:.4f}'.format(criterion(model(train_features, train_adj), train_labels).item()), 'loss_val: {:.4f}'.format(val_loss), 'acc_val: {:.4f}'.format(val_acc)) if __name__ == '__main__': main() ``` 代码实现了一个简单的 GCN 模型，包括两个 GraphConvolution 层和一个 ReLU 激活函数。训练过程中使用了交叉熵损失函数和 Adam 优化器。训练和验证数据集使用了 PyTorch 的 DataLoader 进行批处理。在每个 epoch 结束时，记录了训练和验证损失以及验证精度。这个代码需要三个数据文件 `adj.npy`、`features.npy` 和 `labels.npy`，分别是邻接矩阵、特征矩阵和标签向量。你需要根据你自己的数据集进行修改。