Torchtext是pytorch处理文本的一个工具包,在学习pytorch的过程中遇到,就顺便学习一下,也相应的做一下记录。
我们在进行NLP任务时,对数据预处理一般分为:
- 读入数据
- 将数据one-hot
- one-hot to embedding
- 用迭代器读入(一次性读入容易导致超出内存的问题)
而Torchtext工作逻辑和平时处理数据是非常相似的,基本上可以完成这一系列工作。
从torchtext的官方github:Torchtext github地址的readme中可以看到分为Data和Dataset两类,结合Torchtext的官方文档TorchText 官方文档对目前用到的几个对象、方法进行学习。
Torchtext.data
Dataset类:classtorchtext.data.Dataset(examples, fields, filter_pred=None)
由Field对象组成的数据集
变量:
- sort_key:把长度相似的数据放在一起,提高之后padding的速度
- examples(list[examples]):这个数据集中的ex