>- **🍨 本文为[🔗365天深度学习训练营](https://mp.weixin.qq.com/s/AtyZUu_j2k_ScNH6e732ow) 中的学习记录博客**
>- **🍖 原作者:[K同学啊 | 接辅导、项目定制](https://mtyjkh.blog.csdn.net/)**
>- **🚀 文章来源:[K同学的学习圈子](https://www.yuque.com/mingtian-fkmxf/zxwb45)**
本次将使用PyTorch实现中文文本分类。主要代码与上周篇基本一致,不同的是本次任务中使用了本地的中文数据。
步骤:
文本清洗(处理标点符号,特殊字符)
分词(jieba分词)
文本向量化
建模
导入库,加载数据
-
自定义数据迭代器函数 (
coustom_data_iter
):- 接受两个参数,
texts
和labels
,假设它们是文本数据和相应标签的可迭代集合(例如,列表或数组)。 - 使用
zip
函数并行迭代texts
和labels
中的元素对。 - 对于每个对 (
x, y
),生成一个包含当前文本数据 (x
) 和其对应标签 (y
) 的元组。
- 接受两个参数,
-
迭代器创建 (
train_iter
):- 通过调用
coustom_data_iter
函数使用训练数据 (train_data
) 创建一个名为train_iter
的迭代器。 train_data[0].values[:]
表示文本数据(假设train_data[0]
是 DataFrame 或类似结构),train_data[1].values[:]
表示标签。
- 通过调用
使用jieba分语处理分词,设置默认索引
-
text_pipeline
函数:- 接受一个中文文本
x
作为输入。 - 使用
tokenizer(x)
对文本进行分词,然后通过vocab
函数处理分词后的结果。 - 最终输出经过分词和词汇处理的文本。
- 接受一个中文文本
-
label_pipeline
函数:- 接受一个标签字符串
x
作为输入。 - 通过
label_name.index(x)
查找标签在label_name
列表中的索引,假设label_name
是一个包含标签名的列表。 - 输出标签在列表中的索引值。
- 接受一个标签字符串
-
collate_batch
函数:- 接受一个批量的数据
batch
,其中每个元素是一个包含文本和标签的元组 (_text, _label
)。 - 创建三个空列表:
label_list
用于存储处理后的标签,text_list
用于存储处理后的文本,offsets
用于存储语句的总词汇量的偏移量。 - 遍历批量数据,对每个文本标签对进行处理:
- 将标签通过
label_pipeline
函数转换为索引,并添加到label_list
中。 - 将文本通过
text_pipeline
函数进行处理,转换为 PyTorch 的张量,并添加到text_list
中。 - 计算每个文本的偏移量,将偏移量添加到
offsets
中。
- 将标签通过
- 将
label_list
转换为 PyTorch 张量,并将text_list
中的张量连接起来。 - 计算偏移量的累积和,并将其转换为 PyTorch 张量。
- 最后,返回处理后的文本张量、标签张量和偏移量张量。
- 接受一个批量的数据
-
数据加载器 (
dataloader
) 创建:- 使用
DataLoader
创建数据加载器,传入训练数据迭代器train_iter
。 - 设置批量大小为 8 (
batch_size=8
),不进行数据洗牌 (shuffle=False
)。 - 指定
collate_fn
为上述定义的collate_batch
函数,用于处理批量数据的方式。
- 使用
-
Embedding 层 (
nn.EmbeddingBag
):- 通过
nn.EmbeddingBag
定义了一个嵌入层,用于将文本数据嵌入到低维空间中。 vocab_size
参数指定词典的大小,embed_dim
参数指定嵌入的维度,sparse=False
表示不使用稀疏张量。
- 通过
-
全连接层 (
nn.Linear
):- 使用
nn.Linear
定义了一个全连接层,将嵌入后的文本表示映射到最终的类别分数。 - 输入维度为
embed_dim
,输出维度为num_class
(类别的数量)。
- 使用
-
初始化权重 (
init_weights
):- 在模型初始化时调用,用于初始化 Embedding 层和全连接层的权重和偏置。
- 使用均匀分布初始化权重,偏置值被归零。
-
前向传播 (
forward
):- 接受文本数据
text
和对应的偏移量offsets
作为输入。 - 使用 Embedding 层将文本嵌入到低维空间,通过调用
self.embedding(text, offsets)
实现。 - 将嵌入后的文本表示传递给全连接层,得到最终的类别分数
- 接受文本数据
初始化模型
train
函数:
model.train()
:将模型切换为训练模式,启用训练时特定的行为,例如批量归一化和dropout。- 初始化一些计数器:
total_acc
(总准确率),train_loss
(总损失),total_count
(总样本数)。 log_interval
控制训练过程中打印日志的间隔。- 使用
enumerate(dataloader)
遍历训练数据加载器。- 将文本数据和标签传递给模型,获取模型的预测结果。
- 计算交叉熵损失,并进行反向传播和梯度裁剪。
- 记录训练准确率和损失。
- 定期打印训练进度。
- 最后,返回训练完成后的模型。
evaluate
函数:
model.eval()
:将模型切换为评估模式,禁用训练时特定的行为。- 初始化计数器。
- 使用
torch.no_grad()
上下文,避免在评估时计算梯度。 - 使用
enumerate(dataloader)
遍历测试数据加载器。- 将文本数据和标签传递给模型,获取模型的预测结果。
- 计算交叉熵损失。
- 记录测试准确率和损失。
- 返回评估完成后的模型性能指标。
训练模型
验证准确率 进行预测