Pytorch自然语言处理(2) 使用torchtext工具包进行csv格式的文本预处理

本文介绍了如何使用torchtext对CSV格式的文本数据进行预处理,包括创建Field类、分割数据集、构建字典以及构造迭代器。通过Field定义数据处理规则,构建Vocab字典,然后使用BucketIterator生成训练数据批次。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

在训练NLP模型时,我们要做的第一件事是对数据集进行预处理。torchtext提供了一系列非常方便的API供用户使用,完美囊括了旧有的sklearn, keras等工具包的功能。pytorch框架结构图
本文主要介绍如何使用torchtext处理csv格式的数据。首先我们会介绍用到的类,然后给出示例代码进行说明。

1. 创建Field类

Field类用于定义数据处理的规则,并利用规则构造字典(初始化一个Vocab类)。
它的构造函数为

 Field(sequential=True, use_vocab=True, init_token=None, eos_token=None, 
 fix_length=None, dtype=torch.int64, preprocessing=None, postprocessing=None, 
 lower=False, tokenize=None, tokenizer_language='en', include_lengths=False, 
 batch_first=False, pad_token='<pad>', unk_token='<unk>', pad_first=False, 
 truncate_first=False, stop_words=None, is_target=False)

这里解释几个重要参数

  • sequential 表示输入数据是否为序列,如果为False,则不对

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值