PyTorch torchtext中带有的自然语言处理数据集

最新推荐文章于 2024-05-03 20:11:46 发布

_Old_Summer

最新推荐文章于 2024-05-03 20:11:46 发布

阅读量3k

点赞数 1

分类专栏：算法文章标签： pytorch 自然语言处理深度学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Talantfuck/article/details/124557132

版权

算法专栏收录该内容

19 篇文章 3 订阅

订阅专栏

目录

一.文本分类数据集

4.YelpReviewPolarity

5.YelpReviewFull

7.AmazonReviewPolarity

8.AmazonReviewFull

二，语言模型

三，机器翻译

四，序列标注

2.CoNLL2000Chunking

六，无监督学习

torchtext中带有常用的NLP数据处理工具和常用的数据集.

一.文本分类数据集

1.AG_News

torchtext.datasets.AG_NEWS(root='.data', split=('train', 'test'))

其中:

root:指定数据集存放的位置（默认.data）

split：指定想要获取数据集的哪部分(默认('train','test')就是同时获取训练集和测试集)

AG_News包含超过1百万的新闻文章，四分类数据集，数据集的每一行为'新闻类别新闻标题新闻文本'的格式，训练集包含120000条样本，测试集包含7600条样本。

（亲测在代码中无法直接下载，会出现网络连接问题）

2.SogouNews

torchtext.datasets.SogouNews(root='.data', split=('train', 'test'))

5分类数据集，训练集450000条样本，测试集60000条样本。搜狗新闻数据集，其中的汉语已经转换为拼音

（亲测在代码中无法直接下载，会出现网络连接问题）

3.DBpedia

torchtext.datasets.DBpedia(root='.data', split=('train', 'test'))

14分类数据集，训练集560000，测试集70000.描述了458万个事物，5.83亿个事实

（亲测在代码中无法直接下载，会出现网络连接问题）

4.YelpReviewPolarity

torchtext.datasets.YelpReviewPolarity(root='.data', split=('train', 'test'))

2分类，训练集560000，测试集38000。用户评论

（亲测在代码中无法直接下载，会出现网络连接问题）

5.YelpReviewFull

torchtext.datasets.YelpReviewFull(root='.data', split=('train', 'test'))

5分类，训练集650000，测试集50000

（亲测在代码中无法直接下载，会出现网络连接问题）

6.YahooAnswers

torchtext.datasets.YahooAnswers(root='.data', split=('train', 'test'))

10分类，训练集1400000，测试集60000，问题和答案

（亲测在代码中无法直接下载，会出现网络连接问题）

7.AmazonReviewPolarity

torchtext.datasets.AmazonReviewPolarity(root='.data', split=('train', 'test'))

2分类，训练集3600000，测试集400000

（亲测在代码中无法直接下载，会出现网络连接问题）

8.AmazonReviewFull

torchtext.datasets.AmazonReviewFull(root='.data', split=('train', 'test'))

5分类，训练集3000000，测试集650000

（亲测在代码中无法直接下载，会出现网络连接问题）

9.IMDB

torchtext.datasets.IMDB(root='.data', split=('train', 'test'))

2分类，训练集25000，测试集25000，每一行是情绪分类以及后面的评论文本

（亲测可以在代码中直接下载）

二，语言模型

1.WikiText-2

torchtext.datasets.WikiText2(root='.data', split=('train', 'valid', 'test'))

训练集36718，验证集3760，测试集4358，数据集中的每一行是一个词语

（亲测可以在代码中直接下载）

2.WikiTest103

torchtext.datasets.WikiText103(root='.data', split=('train', 'valid', 'test'))

训练集1801350，验证集3760，测试集4358

（亲测可以在代码中直接下载）

3.PennTreebank

torchtext.datasets.PennTreebank(root='.data', split=('train', 'valid', 'test'))

训练集42068，验证集3370，测试集3761

（亲测在代码中无法直接下载，会出现网络连接问题）

三，机器翻译

1.Multi30k

torchtext.datasets.Multi30k(root='.data', split=('train', 'valid', 'test'), language_pair=('de', 'en'))

language_pair:指定使用的翻译句子对的语言，默认是从德语（de）翻译到英语(en)，数据集中的每一行是一对儿指定语言的句子对

（亲测可以在代码中直接下载）

2.IWSLT2016

torchtext.datasets.IWSLT2016(root='.data', split=('train', 'valid', 'test'), language_pair=('de', 'en'), valid_set='tst2013', test_set='tst2014')

（亲测在代码中无法直接下载，会出现网络连接问题）

3.IWSLT2017

torchtext.datasets.IWSLT2017(root='.data', split=('train', 'valid', 'test'), language_pair=('de', 'en'))

（亲测在代码中无法直接下载，会出现网络连接问题）

四，序列标注

1.UDPOS

torchtext.datasets.UDPOS(root='.data', split=('train', 'valid', 'test'))

训练集12543，验证集2002，测试集2077，每一行是一句话中的每个词，以及每个词的词性标注信息

（亲测可以在代码中直接下载）

2.CoNLL2000Chunking

torchtext.datasets.CoNLL2000Chunking(root='.data', split=('train', 'test'))

训练集8936，测试集2012

（亲测可以在代码中直接下载）

五，问答

1.SQuAD 1.0

torchtext.datasets.SQuAD1(root='.data', split=('train', 'dev'))

训练集87599，测试集10570，每一行是一段短文，一个问题，问题的答案

（亲测可以在代码中直接下载）

2.SQuAD 2.0

torchtext.datasets.SQuAD2(root='.data', split=('train', 'dev'))

训练集130319，测试集11873

（亲测可以在代码中直接下载）

六，无监督学习

1.EnWik9

torchtext.datasets.EnWik9(root='.data', split=('train', ))

训练集13147026

（亲测可以在代码中直接下载）

关注

1
点赞
踩
13

收藏

觉得还不错? 一键收藏
打赏
1
评论
PyTorch torchtext中带有的自然语言处理数据集

目录一.文本分类数据集1.AG_News2.SogouNews3.DBpedia4.YelpReviewPolarity5.YelpReviewFull6.YahooAnswers7.AmazonReviewPolarity8.AmazonReviewFull9.IMDB二，语言模型1.WikiText-22.WikiTest1033.PennTreebank三，机器翻译1.Multi30k2.IWSLT20163.IWSLT2017
复制链接

扫一扫

专栏目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

_Old_Summer 感谢老板！！！

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。