NLP项目常用数据
概述
在NLP项目中,主要的项目包含:文本分类、舆情分析、摘要抽取、文本纠错、情感分析以及智能分词等。而在学习这类项目的过程中,在了解理论的同时,还需要自己动手实训。因此数据集对于我们来说是非常重要的。以下将介绍几个开源的数据集。
数据集来源
1. 搜狗实验室数据
搜狗实验室(Sogo Labs)是搜狗搜索核心研发团队对外交流的窗口,包含数据资源、数据挖掘云、研究合作等几个栏目。数据资源包括评测集合、语料数据、新闻数据、图片数据和自然语言处理相关数据,网址为http://www.sogou.com/labs/resource/list_pingce.php
1.1 互联网语料库(SogouT)
SogouT来自互联网各种类型的1.3亿个原始网页, 压缩前的大小超过了5TB,格式如下:
// 数据存储示例
<doc>
<docno>页面ID</docno>
<url>页面URL</url>
页面原始内容
</doc>
为了满足不同需求,SogouT分为了不同的版本,差别体现在数据量上:
- 迷你版(样例数据, 61KB):tar.gz格式,zip格式
- 完整版(1TB):(硬盘拷贝)
- 历史版本(130GB):V2.0(硬盘拷贝)
1.2 全网新闻数据(SogouCA)
SogouCA来自若干新闻站点2012年6月—7月期间国内,国际,体育,社会,娱乐等18个频道的新闻数据,提供URL和正文信息,格式如下:
<doc>
<url>页面URL</url>
<docno>页面ID</docno>
<contenttitle>页面标题</contenttitle>
<content>页面内容</content>
</doc>
为了满足不同需求,SogouCA分为了不同的版本,差别体现在数据量上:
- 迷你版(样例数据, 101KB):tar.gz格式,zip格式
- 完整版(711MB):tar.gz格式,zip格式
历史版本:
- 完整版(同时提供硬盘拷贝,1.02GB):tar.gz格式
- 迷你版(样例数据, 3KB):tar.gz格式
- 精简版(一个月数据, 437MB):tar.gz格式
1.3 搜狐新闻数据(SogouCS)
SogouCS来自搜狐新闻2012年6月—7月期间国内,国际,体育,社会,娱乐等18个频道的新闻数据,提供URL和正文信息,格式如下:
<doc>
<url>页面URL</url>
<docno>页面ID</docno>
<contenttitle>页面标题</contenttitle>
<content>页面内容</content>
</doc>
为了满足不同需求,SogouCS分为了不同的版本,差别体现在数据量上:
- 迷你版(样例数据, 110KB):tar.gz格式,zip格式
- 完整版(648MB):tar.gz格式,zip格式
历史版本:
- 完整版(同时提供硬盘拷贝,65GB):tar.gz格式
- 迷你版(样例数据, 1KB):tar.gz格式
- 精简版(一个月数据, 347MB):tar.gz格式
- 特别版(王灿辉WWW08论文数据, 647KB):tar.gz格式
1.4 文本分类评价(SogouTCE)
SogouTCE用以评估文本分类结果的正确性,语料来自搜狐等多个新闻网站近20个频道,格式如下:
URL前缀\t对应类别标记
SogouTCE只包含URL前缀和对应类别标记的数据,原始的文本数据可以使用SogouCA和SogouCS。
1.5 互联网词库(SogouW)
SogouW来自于对SOGOU搜索引擎所索引到的中文互联网语料的统计分析,统计所进行的时间是2006年10月,涉及到的互联网语料规模在1亿页面以上。统计出的词条数约为15万条高频词,除标出这部分词条的词频信息之外,还标出了常用的词性信息,格式如下:
词A 词频 词性1 词性2 … 词性N
词B 词频 词性1 词性2 … 词性N
词C 词频 词性1 词性2 … 词性N
2. 阿里云天池
天池作为国内较为出名的比赛平台,除了发布一系列比赛信息及任务外,还有很多教学视频及资料可供大家学习成长。当然,针对本文所述内容,重中之重便是其中也不乏一些开源数据集。
网址:https://tianchi.aliyun.com/dataset/
3. 百度大脑|AI开放平台
百度AI开放平台上不仅只有他们开放的一些功能的API,在其开发平台上,也会提供一系列的数据集,用于大家学习实践。其中大部分数据集也是大家本着开源的心态共享上去的,因此格式复杂。
网址:https://aistudio.baidu.com/aistudio/datasetoverview
4. IMDB Reviews
互联网电影资料库(Internet Movie Database,简称IMDB)是一个关于电影演员、电影、电视节目、电视明星和电影制作的在线数据库。IMDB Reviews是记录了观众对IMDB中作品的评价。除了训练和测试评估示例之外,还有更多未标记的数据可供使用,包括文本和预处理的词袋格式。IMDB Reviews包含25,000个高度差异化的电影评论用于训练,25,000个测试,通常用于英文的情感理解。
5. Sentiment140
Sentiment140是一个可用于情感分析的数据集,包含160,000条推文。一个流行的数据集,非常适合开始你的NLP旅程。情绪已经从数据中预先移除。最终的数据集具有以下6个特征:
- 推文的极性
- 推文的ID
- 推文的日期
- 问题
- 推文的用户名
- 推文的文本
6. 今日头条新闻文本分类数据集
今日头条新闻文本分类数据集共382688条,分布于15个分类中,分类code与名称:
- 100 民生 故事 news_story
- 101 文化 文化 news_culture
- 102 娱乐 娱乐 news_entertainment
- 103 体育 体育 news_sports
- 104 财经 财经 news_finance
- 106 房产 房产 news_house
- 107 汽车 汽车 news_car
- 108 教育 教育 news_edu
- 109 科技 科技 news_tech
- 110 军事 军事 news_military
- 112 旅游 旅游 news_travel
- 113 国际 国际 news_world
- 114 证券 股票 stock
- 115 农业 三农 news_agriculture
- 116 电竞 游戏 news_game
数据格式为:
6552431613437805063_!_102_!_news_entertainment_!_谢娜为李浩菲澄清网络谣言,
之后她的两个行为给自己加分_!_佟丽娅,网络谣言,快乐大本营,李浩菲,谢娜,观众们
每行为一条数据,以_!_分割的个字段,从前往后分别是 新闻ID,分类code,分类名称,新闻字符串(仅含标题),新闻关键词.
项目主页在github上,运行get_data.py即可获取实时获取对应的数据。
https://github.com/fateleak/toutiao-text-classfication-dataset
也可以直接使用github上的历史数据进行分析。
https://github.com/fateleak/toutiao-text-classfication-dataset/raw/master/toutiao_cat_data.txt.zip
写在最后
本文最后推荐一个非常好的开源的NLP学习项目,其简介为:
NLP民工的乐园: 几乎最全的中文NLP资源库
- 词库
- 工具包
- 学习资料
网址: https://github.com/fighting41love/funNLP