Torchtext学习笔记

Torchtext是PyTorch处理文本的工具包,用于NLP任务的数据预处理,包括读入数据、one-hot编码、embedding转换和迭代器。本文介绍了Torchtext的数据集、字段、词汇表和迭代器,如Dataset、Field、Vocab和BPTTIterator的工作原理,特别强调了Field对象在数据转换和共享词汇表中的作用。
摘要由CSDN通过智能技术生成

Torchtext是pytorch处理文本的一个工具包,在学习pytorch的过程中遇到,就顺便学习一下,也相应的做一下记录。
Torchtext工作流程
我们在进行NLP任务时,对数据预处理一般分为:

  • 读入数据
  • 将数据one-hot
  • one-hot to embedding
  • 用迭代器读入(一次性读入容易导致超出内存的问题)
    而Torchtext工作逻辑和平时处理数据是非常相似的,基本上可以完成这一系列工作。
    从torchtext的官方github:Torchtext github地址的readme中可以看到分为Data和Dataset两类,结合Torchtext的官方文档TorchText 官方文档对目前用到的几个对象、方法进行学习。

Torchtext.data

Dataset类:classtorchtext.data.Dataset(examples, fields, filter_pred=None)
由Field对象组成的数据集

变量:

  • sort_key:把长度相似的数据放在一起,提高之后padding的速度
  • examples(list[examples]):这个数据集中的ex
  • 1
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值