torch Embedding 学习笔记

AI算法网奇

已于 2024-05-21 21:14:05 修改

阅读量256

点赞数 3

分类专栏： python基础文章标签： python 深度学习 pytorch

于 2024-05-21 01:55:08 首次发布

本文链接：https://blog.csdn.net/jacke121/article/details/139078482

版权

python基础专栏收录该内容

439 篇文章 53 订阅

订阅专栏

文本向量化（Text Embedding）：将文本数据（词、句子、文档）表示成向量的方法。

词向量化将词转为二进制或高维实数向量，句子和文档向量化则将句子或文档转为数值向量，通过平均、神经网络或主题模型实现

【大模型开发】一文搞懂Embedding工作原理_embedding原理-CSDN博客

torch Embedding 学习笔记

import torch
import torch.nn as nn

# 假设我们有一个词汇表，总共有 10 个词，每个词要映射到一个 5 维的向量中
embedding = nn.Embedding(num_embeddings=10, embedding_dim=5)

# 创建索引，这里我们想查找第 1 和第 3 个词的嵌入
indices = torch.LongTensor([1, 3])

# 使用嵌入层获取嵌入向量
embeddings = embedding(indices)

print(embeddings)

https://www.cnblogs.com/luckyplj/p/13377672.html

1、Embedding的本质
"Embedding" 在字面上的翻译是“嵌入”，但在机器学习和自然语言处理的上下文中，我们更倾向于将其理解为一种 “向量化” 或 “向量表示” 的技术，这有助于更准确地描述其在这些领域中的应用和作用。

（1）机器学习中的Embedding
原理：将离散数据映射为连续变量，捕捉潜在关系。
方法：使用神经网络中的Embedding层，训练得到数据的向量表示。
作用：提升模型性能，增强泛化能力，降低计算成本。

Embedding Model

在机器学习中，Embedding 主要是指将离散的高维数据（如文字、图片、音频）映射到低纬度的连续向量空间。这个过程会生成由实数构成的向量，用于捕捉原始数据的潜在搞关系和结构。
————————————————

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

原文链接：https://blog.csdn.net/leonardotu/article/details/136165819