在PyTorch中处理文本数据时，如何进行词嵌入和文本向量化？

最新推荐文章于 2024-08-24 11:18:02 发布

_Johngo学长

最新推荐文章于 2024-08-24 11:18:02 发布

阅读量849

点赞数 21

分类专栏： Pytorch与深度学习文章标签： pytorch 人工智能 python

本文链接：https://blog.csdn.net/coszhuang/article/details/138340003

版权

Pytorch与深度学习专栏收录该内容

24 篇文章 1 订阅

订阅专栏

在PyTorch中处理文本数据时，如何进行词嵌入和文本向量化？

在机器学习领域的自然语言处理（NLP）任务中，对文本数据的处理是一个关键的步骤。词嵌入和文本向量化是NLP中常用的技术，可以将文本数据转换为机器学习算法可以处理的数值向量，从而提取文本的语义信息和特征。本文将详细介绍在PyTorch中如何进行词嵌入和文本向量化，并展示相应的算法原理、公式推导、计算步骤和Python代码示例。

词嵌入

算法原理

词嵌入是一种将离散的词转换为连续的向量表示的方法，通常使用的是分布式假设。该假设认为，语义相似的词在向量空间中的距离应该较近。Word2Vec是一种常见的词嵌入方法，它分为两种模型：Skip-gram和CBOW（Continuous Bag of Word）。这两种模型都是基于神经网络的无监督学习方法。

Skip-gram模型的目标是根据一个给定的中心词来预测与之相关的上下文词，而CBOW模型则是根据给定的上下文词来预测中心词。这两种模型的训练目标都是最大化给定数据集中的词序列的条件概率。在训练过程中，模型通过不断调整词嵌入矩阵中的参数，使得中心词向量和上下文词向量具有良好的语义关系。

公式推导

以Skip-gram模型为例，假设我们有一个词汇表 $V$ ，其中的每个词用一个one-hot向量表示。假定我们的训练数据为一个由一个中心词 $c$ 和它的上下文词 $w_{i}$ 组成的对 $c, w_{i})$ 。

首先定义词嵌入矩阵 $W_{in}$ 和 $W_{out}$ ， $W_{in}$ 矩阵的大小为 $\times d$ ，其中 $∣ V ∣$ 是词汇表中词的数量， $d$ 是嵌入向量的维度。 $W_{out}$ 矩阵的大小为 $\times |V|$ 。中心词 $c$ 的one-hot向量表示为 $x_{c}$ ，对应的嵌入向量为 $v_{c}$ 。上下文词 $w_{i}$ 的one-hot向量表示为 $x_{w_{i}}$ ，对应的嵌入向量为 $u_{w_{i}}$ 。

中心词 $c$ 和上下文词 $w_{i}$ 之间的条件概率可以使用softmax函数表示如下：

$P(w_{i}|c) = \frac{\exp(u_{w_{i}}^{T}v_{c})}{\sum_{w \in V}\exp(u_{w}^{T}v_{c})}$

我们的目标是最大化给定数据集中的条件概率，可以使用最大似然估计的方法来求解。假设我们的数据集中有 $N$ 个训练样本对 $c, w_{i})$ ，则对应的似然函数为：

$L(\theta) = \prod_{i=1}^{N}P(w_{i}|c)$

其中 $\theta$ 表示模型的参数。为了方便计算，通常取似然函数的对数形式，即对数似然函数。最大化对数似然函数的过程等价于最小化负对数似然函数的过程。负对数似然函数可以表示为：

$\text{loss} = -\sum_{i=1}^{N}\log(\frac{\exp(u_{w_{i}}^{T}v_{c})}{\sum_{w \in V}\exp(u_{w}^{T}v_{c})})$

计算步骤

上述公式中的softmax函数在计算时可能会导致数值不稳定，因此通常会采用近似的方法来计算。常见的近似方法是负采样（Negative Sampling）和层序softmax（Hierarchical Softmax）。这两种方法都可以有效地减少计算量。

负采样的思想是对每个中心词-上下文词对，随机选择一定数量的噪声词作为负样本，然后使用sigmoid函数对正负样本进行二分类。这样可以将原来的多分类问题转化为二分类问题，大大降低了计算复杂度。层序softmax则是通过构建哈夫曼树，将原本需要计算的softmax概率分布转化为对应哈夫曼树中节点的二分类问题。

整个词嵌入的计算步骤如下：

初始化词嵌入矩阵 $W_{in}$ 和 $W_{out}$ 。
对于每个训练样本对 $c, w_{i})$ ，计算中心词向量 $v_{c}$ 和上下文词向量 $u_{w_{i}}$ 。
根据负采样或层序softmax的方法，计算中心词-上下文词对的条件概率。
最小化负对数似然函数，更新词嵌入矩阵的参数。

文本向量化

算法原理

文本向量化是将文本数据转换为数值向量的过程，使得机器学习算法可以对文本数据进行建模和处理。常用的文本向量化方法包括词袋模型（Bag of Words）和词袋模型-词嵌入（Bag of Words with Word Embeddings）。

词袋模型将每个文档表示为词汇表中词的频率向量。假设我们的文档集合由 $N$ 个文档组成，词汇表的大小为 $∣ V ∣$ ，则文档 $i$ 可以表示为一个长度为 $∣ V ∣$ 的向量 $x^{(i)}$ ，其中 $x^{(i)}_{j}$ 表示文档 $i$ 中词汇表中第 $j$ 个词的频率。

词袋模型-词嵌入利用了词嵌入技术，首先将每个词转换为嵌入向量表示，然后计算文档的词嵌入表示。这种方法可以更好地捕捉到词与词之间的语义关系。常用的词嵌入方法包括Word2Vec和GloVe（Global Vectors for Word Representation）。

公式推导

以词袋模型-词嵌入为例，假设我们的文档集合由 $N$ 个文档组成，词汇表的大小为 $∣ V ∣$ ，每个文档的最大长度为 $L$ 。假设我们使用的词嵌入模型得到了每个词的固定维度的嵌入向量。

首先对每个文档进行分词和词嵌入，得到文档的嵌入表示。然后统计词汇表中每个词在文档中出现的次数，得到词频。

文档 $i$ 的嵌入表示为一个大小为 $\times L$ 的矩阵 $E^{(i)}$ ，其中 $d$ 表示嵌入向量的维度。词汇表中第 $j$ 个词的频率表示为 $f_{j}^{(i)}$ 。文档 $i$ 的词袋模型-词嵌入向量可以表示为：

$x_{j}^{(i)} = f_{j}^{(i)} \cdot E^{(i)}_{j}$

其中 $f_{j}^{(i)}$ 表示词典中词汇表中第 $j$ 个词在文档 $i$ 中的频率， $E^{(i)}_{j}$ 表示词汇表中第 $j$ 个词的嵌入向量。

计算步骤

文本向量化的计算步骤如下：

使用词嵌入模型将每个词转换为固定维度的嵌入向量。
对每个文档进行分词和词嵌入，得到文档的嵌入表示。
统计词汇表中每个词在文档中的词频。
根据词频和嵌入向量，计算文档的词袋模型-词嵌入向量。

Python代码示例

import torch
import torch.nn as nn
import torch.optim as optim
from torch.nn.utils import clip_grad_norm_

# 定义词嵌入模型
class WordEmbeddingModel(nn.Module):
    def __init__(self, vocab_size, embed_dim):
        super(WordEmbeddingModel, self).__init__()
        self.embedding = nn.Embedding(vocab_size, embed_dim)
        
    def forward(self, inputs):
        embeds = self.embedding(inputs)
        return embeds

# 定义词袋模型-词嵌入模型
class BagOfWordsModel(nn.Module):
    def __init__(self, embed_dim, vocab_size):
        super(BagOfWordsModel, self).__init__()
        self.embedding = nn.Embedding(vocab_size, embed_dim)
        self.fc = nn.Linear(embed_dim, 1)
        
    def forward(self, inputs):
        embeds = self.embedding(inputs)
        embeds_mean = torch.mean(embeds, dim=1)
        output = self.fc(embeds_mean)
        return output

# 构建虚拟数据集
docs = [
    "I love PyTorch",
    "PyTorch is a great framework",
    "Machine learning is fun"
]
vocab = set(" ".join(docs).split())
word2idx = {word: idx for idx, word in enumerate(vocab)}
idx2word = {idx: word for idx, word in enumerate(vocab)}
num_docs = len(docs)
vocab_size = len(vocab)
embed_dim = 10
max_seq_len = max(len(doc.split()) for doc in docs)

# 将文档转换为索引序列
docs_idx = [[word2idx[word] for word in doc.split()] for doc in docs]
docs_idx = [torch.tensor(doc) for doc in docs_idx]

# 初始化词嵌入模型和词袋模型-词嵌入模型
embedding_model = WordEmbeddingModel(vocab_size, embed_dim)
bag_of_words_model = BagOfWordsModel(embed_dim, vocab_size)

# 定义优化器和损失函数
optimizer = optim.Adam(list(embedding_model.parameters()) + list(bag_of_words_model.parameters()), lr=0.001)
loss_func = nn.BCEWithLogitsLoss()

# 训练词嵌入模型和词袋模型-词嵌入模型
num_epochs = 100
for epoch in range(num_epochs):
    total_loss = 0
    
    for doc_idx in docs_idx:
        optimizer.zero_grad()
        
        # 计算词嵌入向量
        embeds = embedding_model(doc_idx)
        
        # 计算词袋模型-词嵌入向量
        output = bag_of_words_model(embeds)
        
        # 计算损失
        target = torch.ones(num_docs)
        loss = loss_func(output, target)
        total_loss += loss.item()
        
        # 反向传播和梯度更新
        loss.backward()
        clip_grad_norm_(embedding_model.parameters(), 5.0)
        optimizer.step()
    
    # 每个epoch输出损失
    print(f"Epoch {epoch+1}/{num_epochs}, Loss: {total_loss}")

该示例代码使用PyTorch库来实现词嵌入和词袋模型-词嵌入模型的训练过程。首先构建了一个虚拟的文档数据集，然后使用WordEmbeddingModel模型来训练词嵌入，再使用BagOfWordsModel模型来训练词袋模型-词嵌入。

在训练过程中，定义了优化器和损失函数，并使用反向传播和梯度更新来优化模型。每个epoch结束时输出损失值。

代码细节解释

WordEmbeddingModel和BagOfWordsModel分别用于实现词嵌入模型和词袋模型-词嵌入模型。它们的forward函数分别计算词嵌入和词袋模型-词嵌入的输出。
通过定义优化器optimizer和损失函数loss_func，可以在训练过程中更新模型的参数并计算损失。
使用clip_grad_norm_函数对梯度进行裁剪，以避免梯度爆炸的问题。
在训练过程中，使用虚拟的文档数据集进行训练，并输出每个epoch的损失值。

通过以上的详细介绍，包括了算法原理、公式推导、计算步骤和Python代码示例，我们可以在PyTorch中灵活处理文本数据，进行词嵌入和文本向量化的操作，并为后续的机器学习算法提供输入。

_Johngo学长

关注

21
点赞
踩
20

收藏

觉得还不错? 一键收藏
0
评论
在PyTorch中处理文本数据时，如何进行词嵌入和文本向量化？

词嵌入和文本向量化是NLP中常用的技术，可以将文本数据转换为机器学习算法可以处理的数值向量，从而提取文本的语义信息和特征。词嵌入是一种将离散的词转换为连续的向量表示的方法，通常使用的是分布式假设。Skip-gram模型的目标是根据一个给定的中心词来预测与之相关的上下文词，而CBOW模型则是根据给定的上下文词来预测中心词。通过以上的详细介绍，包括了算法原理、公式推导、计算步骤和Python代码示例，我们可以在PyTorch中灵活处理文本数据，进行词嵌入和文本向量化的操作，并为后续的机器学习算法提供输入。
复制链接

扫一扫

专栏目录