原文链接:https://blog.csdn.net/u012436149/article/details/79310176
torchtext官方文档:https://torchtext.readthedocs.io/en/latest/data.html
以下文章转载部分
文章部分翻译自 http://anie.me/On-Torchtext/
API一览
torchtext.data
torchtext.data.Example
: 用来表示一个样本,数据+标签torchtext.vocab.Vocab
: 词汇表相关torchtext.data.Datasets
: 数据集类,__getitem__
返回Example
实例torchtext.data.Field
: 用来定义字段的处理方法(文本字段,标签字段)- 创建
Example
时的 预处理 batch
时的一些处理操作。
- 创建
torchtext.data.Iterator
: 迭代器,用来生成batch
torchtext.datasets: 包含了常见的数据集.
前言
Torchtext 是一个非常强有力的库,她可以帮助我们解决 文本的预处理问题。为了能够更好的利用这个工具,我们需要知道她可以做什么,不可以做什么,也要将每个API和其我们想要的做的事情联系起来。另外一个值得夸赞的一点是,Torchtext 不仅可以和 pytorch 一起用,还可以和其它深度学习框架(tf,mxnet,…)。
下面是 text 预处理的工作列表,打勾的代表 torchtext 已经支持的工作:
- File Loading: 加载不同文件格式的
corpus
- Tokenization: 将句子 分解成 词列表。
- Vocab: 构建 当前 corpus 的词汇表
- Numericalize/Indexify: 将 词 映射成 index
- Word Vector: 词向量
- Batching: generate batches of training sample (padding is normally happening here)
- Train/Val/Test Split: seperate your data into a fixed train/val/test set (not used for k-fold validation)(这个需要手动划分)
- Embedding Lookup: map each sentence (which contains word indices) to fixed dimension word vectors(这个可以使用 pytorch 的 Embedding Layer解决)
下面是对以上任务一个直观的表述:
"The quick fox jumped over a lazy dog."
-> (tokenization)
["The", "quick", "fox", "jumped", "over", "a", "lazy", "dog", "."]
-> (vocab)
{“The” -> 0,
“quick”-> 1,
“fox” -> 2,
...}
-> (numericalize/indexify)
[0, 1, 2, ...]
-> (embedding lookup)
[
[0.3, 0.2, 0.5],
[0.6, 0., 0.1],
...
]
这些过程非常容易搞砸,特别是
tokenization
。研究者们经常花费大量的时间编写代码来处理这些问题。Torchtext 将这些常用的预处理操作整理起来,使得更加好用。概览
TorchText 的数据预处理流程为:
- 定义样本的处理操作。—>
torchtext.data.Field
- 加载 corpus (都是 string)—>
torchtext.data.Datasets
- 在
Datasets
中,torchtext
将corpus
处理成一个个的torchtext.data.Example
实例 - 创建
torchtext.data.Example
的时候,会调用field.preprocess
方法
- 在
- 创建词汇表, 用来将
string token
转成index
—>field.build_vocab()
- 词汇表负责:
string token ---> index
,index ---> string token
,string token ---> word vector
- 词汇表负责:
- 将处理后的数据 进行 batch 操作。—>
torchtext.data.Iterator
- 将
Datasets
中的数据batch
化 - 其中会包含一些
pad
操作,保证一个batch
中的example
长度一致 - 在这里将
string token
转化成index
。
- 将
tokenization,vocab, numericalize, embedding lookup
和 TorchText 数据预处理阶段的对应关系是:tokenization
—>Dataset
的构造函数中,由Field
的tokenize
操作vocab
—>field.build_vocab
时,由Field
保存 映射关系numericalize
—> 发生在iterator
准备batch
的时候,由Field
执行numericalize
操作embedding lookup
—> 由pytorch Embedding Layer
提供此功能。
一个简单例子
首先,我们要创建 Field 对象: 这个对象包含了我们打算如何预处理文本数据的信息。 她就像一个说明书。下面定义了两个 Field 对象。
import spacy spacy_en = spacy.load('en')
- 定义样本的处理操作。—>
def tokenizer(text): # create a tokenizer function
# 返回 a list of <class ‘spacy.tokens.token.Token’>
return [tok.text for tok in spacy_en.tokenizer(text)]
TEXT = data.Field(sequential=True, tokenize=tokenizer, lower=True)
LABEL = data.Field(sequential=False, use_vocab=False)
如果LABEL是整型,不需要
numericalize
, 就需要将use_vocab=False
. Torchtext 可能也会允许使用 text 作为 label,但是现在我还没有用到。然后我们可以通过
torchtext.data.Dataset
的类方法splits
加载所有的语料库:(假设我们有三个语料库,train.tsv, val.tsv, test.tsv
)train, val, test = data.TabularDataset.splits( path='./data/', train='train.tsv', validation='val.tsv', test='test.tsv', format='tsv', fields=[('Text', TEXT), ('Label', LABEL)])
然后构建语料库的
Vocabulary
, 同时,加载预训练的word-embedding
TEXT.build_vocab(train, vectors="glove.6B.100d")
我们可以直接传一个 string,然后后端会下载 word vectors 并且加载她。我们也可以通过
vocab.Vectors
使用自定义的 vectors.下一步将要进行 batching 操作:用 torchtext 提供的 API 来创建一个 iterator
train_iter, val_iter, test_iter = data.Iterator.splits( (train, val, test), sort_key=lambda x: len(x.Text), batch_sizes=(32, 256, 256), device=-1)
batch = next(iter(train_iter))
print("batch text: ", batch.Text) # 对应 Fileld 的 name
print("batch label: ", batch.Label)
需要注意的是,如果您要运行在 CPU 上,需要设置
device=-1
, 如果运行在GPU 上,需要设置device=0
。您可以很容易的检查 batch 后的结果,同时会发现,torchtext
使用了动态padding
,意味着batch
内的所有句子会pad
成batch
内最长的句子长度。batch.Text
和batch.Label
都是torch.LongTensor
类型的值,保存的是index
。如果我们想获得 word vector,应该怎么办呢?
Field
的vocab
属性保存了 word vector 数据,我们可以把这些数据拿出来- 然后我们使用 Pytorch 的
Embedding Layer
来解决embedding lookup
问题。
Field, Vocab, Vectors
为什么使用 Field
抽象:
torchtext
认为一个样本是由多个字段(文本字段,标签字段)组成,不同的字段可能会有不同的处理方式,所以才会有 Field
抽象。
- Field: 定义对应字段的处理操作
- Vocab: 定义了 词汇表
- Vectors: 用来保存预训练好的 word vectors
所以,
TEXT.build_vocab(train, vectors="glove.6B.100d")
的解释为: 从预训练的 vectors 中,将当前 corpus 词汇表的词向量抽取出来,构成当前 corpus 的 Vocab(词汇表)。
其它
希望迭代器返回固定长度的文本
- 设置
Field
的fix_length
属性
在创建字典时, 希望仅仅保存出现频率最高的 k 个单词
- 在
.build_vocab
时使用max_size
参数指定
如何指定 Vector 缺失值的初始化方式
vector.unk_init = init.xavier_uniform
这种方式指定完再传入build_vocab
inference
在推断的时候掌握Field的两个接口即可
Field.preprocess(self, x) # x:文本 string,此api会对 string 进行 tokenization,返回的是 token list Field.process(self, batch, device=None) # batch: list of token list,此API会执行,padding,numericalization 操作。返回的是 idx-tensor。
- 设置
以下为补充部分
上面转载的文章讲的很全面了,我程序中还遇到了一些问题:
1.data.RawField()
在torchtext中的特殊的field。文档中这样解释:
定义一般数据类型。每个数据集都包含一种或多种类型的数据。例如,文本分类数据集包含句子及其类,而机器翻译数据集包含两种语言的成对文本示例。这些类型的数据都由一个RawField对象表示。RawField对象不假设数据类型的任何属性,它持有与处理数据类型相关的参数。
从程序实际运行的效果来看,它不需要做token,见如下代码:self.RAW = data.RawField() #定义一般数据类型,RawField对象不假设数据类型的任何属性,它持有与处理数据类型相关的参数。大概就是说整个field不进行装欢 self.RAW.is_target = False #确保整个filed不是目标变量 self.CHAR_NESTING = data.Field(batch_first=True, tokenize=list, lower=True) #list是什么鬼 self.CHAR = data.NestedField(self.CHAR_NESTING, tokenize=word_tokenize) # NestedField一个新的域,sequential=True self.WORD = data.Field(batch_first=True, tokenize=word_tokenize, lower=True, include_lengths=True) self.LABEL = data.Field(sequential=False, unk_token=None, use_vocab=False) dict_fields = {'id': ('id', self.RAW), 's_idx': ('s_idx', self.LABEL), 'e_idx': ('e_idx', self.LABEL), 'context': [('c_word', self.WORD), ('c_char', self.CHAR)], 'question': [('q_word', self.WORD), ('q_char', self.CHAR)]} list_fields = [('id', self.RAW), ('s_idx', self.LABEL), ('e_idx', self.LABEL), ('c_word', self.WORD), ('c_char', self.CHAR), ('q_word', self.WORD), ('q_char', self.CHAR)] self.train, self.dev = data.TabularDataset.splits( #实际上是建立一个dataset,jli path=path, train='{}l'.format(args.train_file), validation='{}l'.format(args.dev_file), format='json', fields=dict_fields) #这里使用的是dic_list要求必须是json等格式文件,且key对应json里面的列 .....
之后build vocab,建立iterhi后看结果确实没变化,如图所示:
2.data.NestedField()
一个常用于做字符级词向量的fied,具体查看文档,我也不是很明白,不多解释看程序:
self.CHAR_NESTING = data.Field(batch_first=True, tokenize=list, lower=True) self.CHAR = data.NestedField(self.CHAR_NESTING, tokenize=word_tokenize) # NestedField一个新的域,sequential=True .... dict_fields = {'id': ('id', self.RAW), 's_idx': ('s_idx', self.LABEL), 'e_idx': ('e_idx', self.LABEL), 'context': [('c_word', self.WORD), ('c_char', self.CHAR)], 'question': [('q_word', self.WORD), ('q_char', self.CHAR)]} .... def word_tokenize(tokens): return [token.replace("''", '"').replace("``", '"') for token in nltk.word_tokenize(tokens)]
3data.TabularDataset的参数fields
这里的参数fieids包括两种,一种是dict_fields,一种是list_field。代码:
dict_fields = {'id': ('id', self.RAW), 's_idx': ('s_idx', self.LABEL), 'e_idx': ('e_idx', self.LABEL), 'context': [('c_word', self.WORD), ('c_char', self.CHAR)], 'question': [('q_word', self.WORD), ('q_char', self.CHAR)]} list_fields = [('id', self.RAW), ('s_idx', self.LABEL), ('e_idx', self.LABEL), ('c_word', self.WORD), ('c_char', self.CHAR), ('q_word', self.WORD), ('q_char', self.CHAR)]
我一开始没没明白这是个什么格式,官方文档里详细的给出了说明: