Torchtext基础知识

最新推荐文章于 2024-05-03 20:11:46 发布

AI-CTY

最新推荐文章于 2024-05-03 20:11:46 发布

阅读量1.1k

点赞数 2

分类专栏： Pytorch 自然语言处理文章标签：深度学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_40334856/article/details/104208296

版权

一、Torchtext组建的基本构造

Field: 主要包含以下数据预处理的配置信息，比如指定的分词方法，是否转成小写，起始与结束字符，补全字符以及词典等等
LabelField: 用于指定标签类别的种类以及标签的表示方式
Dateset: 它是继承了Pytorch的Dataset,用于加载数据，提供了TabularDataset可以指定路径，格式，Field信息就可以方便的完成数据加载。如果部分数据无法使用TabularDateset进行加载，则可以继承Dataset类别进行自建类，但最后必须返回一个Examples够迭代类进行划分。同时torchtext还提供预先构建的常用数据集的Dataset对象，可以直接加载使用，splits方法可以同时加载训练集，验证集，测试集。
Iterator: 主要是数据输出的模型的迭代器，可以支持batch定制

二、Field组建

Field 包含一些文本处理的通用的参数设置，同时还包含了一个词典的对象，可以把文本数据表示为数字类型，进而可以把文本表示为需要的tensor类型。
1 、Field的对象主要参数包含：
sequential：是否把数据表示成序列；如果是False，不能使用分词；默认值为True
use_vocab：是否使用词典对象；如果是False，数据的类型必须已经是数值类型；默认值为True
init_token࿱

最低0.47元/天解锁文章

关注

2
点赞
踩
7

收藏

觉得还不错? 一键收藏
0
评论
Torchtext基础知识

一、Torchtext组建的基本构造Field: 主要包含以下数据预处理的配置信息，比如指定的分词方法，是否转成小写，起始与结束字符，补全字符以及词典等等LabelField: 用于指定标签类别的种类以及标签的表示方式Dateset: 它是继承了Pytorch的Dataset,用于加载数据，提供了TabularDataset可以指定路径，格式，Field信息就可以方便的完成数据加载。同时to...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。