torchtext 包由数据处理实用程序和自然语言的流行数据集组成。
'''
All datasets are subclasses of torchtext.data.Dataset, which inherits from torch.utils.data.Dataset i.e, they have split and iters methods implemented.
General use cases are as follows:
所有数据集都是torchtext.data.Dataset的子类,它继承了torch.utils.data.Dataset,即它们实现了split和iters方法。
一般用例如下:
'''
# Approach 1, splits:
# 方法1,splits:
# set up fields 设置字段
TEXT = data.Field(lower=True, include_lengths=True, batch_first=True)
LABEL = data.Field(sequential=False)
# make splits for data 对数据进行拆分
train, test = datasets.IMDB.splits(TEXT, LABEL)
# build the vocabulary 建立词汇
TEXT.build_vocab(train, vectors=GloVe(name='6B', dim=300))
LABEL.build_vocab(train)
# make iterator for splits 生成用于拆分的迭代器
train_iter, test_iter = data.BucketIterator.splits(
(train, test), batch_size=3, device=0)
# Approach 2, iters:
# 方法2 iters:
# use default configurations 使用默认配置
train_iter, test_iter = datasets.IMDB.iters(batch_size=4)
# The following datasets are available:
# 以下数据集可用:
Datasets 数据集
- Sentiment Analysis (情绪分析)
- Question Classification (问题分类)
- Entailment (自然语言推理数据集)
- Language Modeling (语言建模)
- WikiText-2 (维基文本-2) - (wikitext-2数据集,是torchtext中自然语言建模数据集之一,其是从Wikipedia的优质文章和标杆文章中提取得到)
- WikiText103 (维基文本103)-本数据集是超过 1 亿个语句的数据合集,全部从维基百科的 Good 与 Featured 文章中提炼出来。广泛用于语言建模,当中 包括 fastai 库和 ULMFiT 算法中经常用到的预训练模型。
- PennTreebank (Penn Treebank是NLP中常用的PTB语料库,Penn Treebank是一个项目的名称,该项目对语料进行标注,标注内容包括:【词性标注】和【句法分析)
- Machine Translation (机器翻译)
- Sequence Tagging (序列标记)-序列标注(Sequence Tagging)是NLP中最基础的任务,应用十分广泛,如分词、词性标注(POS tagging)、命名实体识别(Named Entity Recognition,NER)、关键词抽取、语义角色标注(Semantic Role Labeling)、槽位抽取(Slot Filling)等实质上都属于序列标注的范畴。
- Question Answering (回答问题)