构建数据集使用torchtext
TEXT = torchtext.data.Field(lower=True)
train, val, test = torchtext.datasets.LanguageModelingDataset.splits(path=r"D:\pytorch\PyTorchclass\data\class2\text8\text8", train="text8.train.txt", validation="text8.dev.txt", test="text8.test.txt",
text_field=TEXT)
构造了训练集、交叉验证集、测试集。
构建词汇表:
TEXT.build_vocab(train, max_size=MAX_VOCAB_SIZE)
print(type(TEXT.vocab.itos)) # <class 'list'>
print(TEXT.vocab.itos[:10])
itos全程idx_to_word,是一个list,存放所有词汇
print(type