中文文本分类-Pytorch实现

>- **🍨 本文为[🔗365天深度学习训练营](https://mp.weixin.qq.com/s/AtyZUu_j2k_ScNH6e732ow) 中的学习记录博客**
>- **🍖 原作者:[K同学啊 | 接辅导、项目定制](https://mtyjkh.blog.csdn.net/)**
>- **🚀 文章来源:[K同学的学习圈子](https://www.yuque.com/mingtian-fkmxf/zxwb45)**

本次将使用PyTorch实现中文文本分类。主要代码与上周篇基本一致,不同的是本次任务中使用了本地的中文数据。

步骤:

文本清洗(处理标点符号,特殊字符)

分词(jieba分词)

文本向量化

建模

导入库,加载数据

  1. 自定义数据迭代器函数 (coustom_data_iter):

    • 接受两个参数,textslabels,假设它们是文本数据和相应标签的可迭代集合(例如,列表或数组)。
    • 使用 zip 函数并行迭代textslabels中的元素对。
    • 对于每个对 (x, y),生成一个包含当前文本数据 (x) 和其对应标签 (y) 的元组。
  2. 迭代器创建 (train_iter):

    • 通过调用coustom_data_iter函数使用训练数据 (train_data) 创建一个名为 train_iter 的迭代器。
    • train_data[0].values[:] 表示文本数据(假设 train_data[0] 是 DataFrame 或类似结构),train_data[1].values[:] 表示标签。

使用jieba分语处理分词,设置默认索引

  1. text_pipeline 函数:

    • 接受一个中文文本 x 作为输入。
    • 使用 tokenizer(x) 对文本进行分词,然后通过 vocab 函数处理分词后的结果。
    • 最终输出经过分词和词汇处理的文本。
  2. label_pipeline 函数:

    • 接受一个标签字符串 x 作为输入。
    • 通过 label_name.index(x) 查找标签在 label_name 列表中的索引,假设 label_name 是一个包含标签名的列表。
    • 输出标签在列表中的索引值。

  1. collate_batch 函数:

    • 接受一个批量的数据 batch,其中每个元素是一个包含文本和标签的元组 (_text, _label)。
    • 创建三个空列表:label_list 用于存储处理后的标签,text_list 用于存储处理后的文本,offsets 用于存储语句的总词汇量的偏移量。
    • 遍历批量数据,对每个文本标签对进行处理:
      • 将标签通过 label_pipeline 函数转换为索引,并添加到 label_list 中。
      • 将文本通过 text_pipeline 函数进行处理,转换为 PyTorch 的张量,并添加到 text_list 中。
      • 计算每个文本的偏移量,将偏移量添加到 offsets 中。
    • label_list 转换为 PyTorch 张量,并将 text_list 中的张量连接起来。
    • 计算偏移量的累积和,并将其转换为 PyTorch 张量。
    • 最后,返回处理后的文本张量、标签张量和偏移量张量。
  2. 数据加载器 (dataloader) 创建:

    • 使用 DataLoader 创建数据加载器,传入训练数据迭代器 train_iter
    • 设置批量大小为 8 (batch_size=8),不进行数据洗牌 (shuffle=False)。
    • 指定 collate_fn 为上述定义的 collate_batch 函数,用于处理批量数据的方式。

  1. Embedding 层 (nn.EmbeddingBag):

    • 通过 nn.EmbeddingBag 定义了一个嵌入层,用于将文本数据嵌入到低维空间中。
    • vocab_size 参数指定词典的大小,embed_dim 参数指定嵌入的维度,sparse=False 表示不使用稀疏张量。
  2. 全连接层 (nn.Linear):

    • 使用 nn.Linear 定义了一个全连接层,将嵌入后的文本表示映射到最终的类别分数。
    • 输入维度为 embed_dim,输出维度为 num_class(类别的数量)。
  3. 初始化权重 (init_weights):

    • 在模型初始化时调用,用于初始化 Embedding 层和全连接层的权重和偏置。
    • 使用均匀分布初始化权重,偏置值被归零。
  4. 前向传播 (forward):

    • 接受文本数据 text 和对应的偏移量 offsets 作为输入。
    • 使用 Embedding 层将文本嵌入到低维空间,通过调用 self.embedding(text, offsets) 实现。
    • 将嵌入后的文本表示传递给全连接层,得到最终的类别分数

初始化模型

train 函数:

  • model.train():将模型切换为训练模式,启用训练时特定的行为,例如批量归一化和dropout。
  • 初始化一些计数器:total_acc(总准确率),train_loss(总损失),total_count(总样本数)。
  • log_interval 控制训练过程中打印日志的间隔。
  • 使用enumerate(dataloader)遍历训练数据加载器。
    • 将文本数据和标签传递给模型,获取模型的预测结果。
    • 计算交叉熵损失,并进行反向传播和梯度裁剪。
    • 记录训练准确率和损失。
    • 定期打印训练进度。
  • 最后,返回训练完成后的模型。

evaluate 函数:

  • model.eval():将模型切换为评估模式,禁用训练时特定的行为。
  • 初始化计数器。
  • 使用torch.no_grad()上下文,避免在评估时计算梯度。
  • 使用enumerate(dataloader)遍历测试数据加载器。
    • 将文本数据和标签传递给模型,获取模型的预测结果。
    • 计算交叉熵损失。
    • 记录测试准确率和损失。
  • 返回评估完成后的模型性能指标。

训练模型

验证准确率 进行预测

评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值