中文文本分类-Pytorch实现

最新推荐文章于 2024-10-11 08:06:41 发布

pj5624

最新推荐文章于 2024-10-11 08:06:41 发布

阅读量1k

点赞数 20

文章标签：自然语言处理 embedding pytorch 人工智能

本文链接：https://blog.csdn.net/pj5624/article/details/135281353

版权

>- **🍨 本文为[🔗365天深度学习训练营](https://mp.weixin.qq.com/s/AtyZUu_j2k_ScNH6e732ow) 中的学习记录博客**
>- **🍖 原作者：[K同学啊 | 接辅导、项目定制](https://mtyjkh.blog.csdn.net/)**
>- **🚀 文章来源：[K同学的学习圈子](https://www.yuque.com/mingtian-fkmxf/zxwb45)**

本次将使用PyTorch实现中文文本分类。主要代码与上周篇基本一致，不同的是本次任务中使用了本地的中文数据。

步骤：

文本清洗（处理标点符号，特殊字符）

分词（jieba分词）

文本向量化

建模

导入库，加载数据

自定义数据迭代器函数 (coustom_data_iter)：
- 接受两个参数，texts 和 labels，假设它们是文本数据和相应标签的可迭代集合（例如，列表或数组）。
- 使用 zip 函数并行迭代texts和labels中的元素对。
- 对于每个对 (x, y)，生成一个包含当前文本数据 (x) 和其对应标签 (y) 的元组。
迭代器创建 (train_iter)：
- 通过调用coustom_data_iter函数使用训练数据 (train_data) 创建一个名为 train_iter 的迭代器。
- train_data[0].values[:] 表示文本数据（假设 train_data[0] 是 DataFrame 或类似结构），train_data[1].values[:] 表示标签。

使用jieba分语处理分词，设置默认索引

text_pipeline 函数：
- 接受一个中文文本 x 作为输入。
- 使用 tokenizer(x) 对文本进行分词，然后通过 vocab 函数处理分词后的结果。
- 最终输出经过分词和词汇处理的文本。
label_pipeline 函数：
- 接受一个标签字符串 x 作为输入。
- 通过 label_name.index(x) 查找标签在 label_name 列表中的索引，假设 label_name 是一个包含标签名的列表。
- 输出标签在列表中的索引值。

collate_batch 函数：
- 接受一个批量的数据 batch，其中每个元素是一个包含文本和标签的元组 (_text, _label)。
- 创建三个空列表：label_list 用于存储处理后的标签，text_list 用于存储处理后的文本，offsets 用于存储语句的总词汇量的偏移量。
- 遍历批量数据，对每个文本标签对进行处理：
  - 将标签通过 label_pipeline 函数转换为索引，并添加到 label_list 中。
  - 将文本通过 text_pipeline 函数进行处理，转换为 PyTorch 的张量，并添加到 text_list 中。
  - 计算每个文本的偏移量，将偏移量添加到 offsets 中。
- 将 label_list 转换为 PyTorch 张量，并将 text_list 中的张量连接起来。
- 计算偏移量的累积和，并将其转换为 PyTorch 张量。
- 最后，返回处理后的文本张量、标签张量和偏移量张量。
数据加载器 (dataloader) 创建：
- 使用 DataLoader 创建数据加载器，传入训练数据迭代器 train_iter。
- 设置批量大小为 8 (batch_size=8)，不进行数据洗牌 (shuffle=False)。
- 指定 collate_fn 为上述定义的 collate_batch 函数，用于处理批量数据的方式。

Embedding 层 (nn.EmbeddingBag)：
- 通过 nn.EmbeddingBag 定义了一个嵌入层，用于将文本数据嵌入到低维空间中。
- vocab_size 参数指定词典的大小，embed_dim 参数指定嵌入的维度，sparse=False 表示不使用稀疏张量。
全连接层 (nn.Linear)：
- 使用 nn.Linear 定义了一个全连接层，将嵌入后的文本表示映射到最终的类别分数。
- 输入维度为 embed_dim，输出维度为 num_class（类别的数量）。
初始化权重 (init_weights)：
- 在模型初始化时调用，用于初始化 Embedding 层和全连接层的权重和偏置。
- 使用均匀分布初始化权重，偏置值被归零。
前向传播 (forward)：
- 接受文本数据 text 和对应的偏移量 offsets 作为输入。
- 使用 Embedding 层将文本嵌入到低维空间，通过调用 self.embedding(text, offsets) 实现。
- 将嵌入后的文本表示传递给全连接层，得到最终的类别分数

初始化模型

`train` 函数：

model.train()：将模型切换为训练模式，启用训练时特定的行为，例如批量归一化和dropout。
初始化一些计数器：total_acc（总准确率），train_loss（总损失），total_count（总样本数）。
log_interval 控制训练过程中打印日志的间隔。
使用enumerate(dataloader)遍历训练数据加载器。
- 将文本数据和标签传递给模型，获取模型的预测结果。
- 计算交叉熵损失，并进行反向传播和梯度裁剪。
- 记录训练准确率和损失。
- 定期打印训练进度。
最后，返回训练完成后的模型。

`evaluate` 函数：

model.eval()：将模型切换为评估模式，禁用训练时特定的行为。
初始化计数器。
使用torch.no_grad()上下文，避免在评估时计算梯度。
使用enumerate(dataloader)遍历测试数据加载器。
- 将文本数据和标签传递给模型，获取模型的预测结果。
- 计算交叉熵损失。
- 记录测试准确率和损失。
返回评估完成后的模型性能指标。

训练模型