NLP学习过程中常用数据

概述

在NLP项目中,主要的项目包含:文本分类、舆情分析、摘要抽取、文本纠错、情感分析以及智能分词等。而在学习这类项目的过程中,在了解理论的同时,还需要自己动手实训。因此数据集对于我们来说是非常重要的。以下将介绍几个开源的数据集。

数据集来源

1. 搜狗实验室数据

搜狗实验室(Sogo Labs)是搜狗搜索核心研发团队对外交流的窗口,包含数据资源、数据挖掘云、研究合作等几个栏目。数据资源包括评测集合、语料数据、新闻数据、图片数据和自然语言处理相关数据,网址为http://www.sogou.com/labs/resource/list_pingce.php

1.1 互联网语料库(SogouT)

SogouT来自互联网各种类型的1.3亿个原始网页, 压缩前的大小超过了5TB,格式如下:

// 数据存储示例
<doc>
<docno>页面ID</docno>
<url>页面URL</url>
页面原始内容
</doc>

为了满足不同需求,SogouT分为了不同的版本,差别体现在数据量上:

  • 迷你版(样例数据, 61KB):tar.gz格式,zip格式
  • 完整版(1TB):(硬盘拷贝)
  • 历史版本(130GB):V2.0(硬盘拷贝)

1.2 全网新闻数据(SogouCA)

SogouCA来自若干新闻站点2012年6月—7月期间国内,国际,体育,社会,娱乐等18个频道的新闻数据,提供URL和正文信息,格式如下:

<doc>
<url>页面URL</url>
<docno>页面ID</docno>
<contenttitle>页面标题</contenttitle>
<content>页面内容</content>
</doc>

为了满足不同需求,SogouCA分为了不同的版本,差别体现在数据量上:

  • 迷你版(样例数据, 101KB):tar.gz格式,zip格式
  • 完整版(711MB):tar.gz格式,zip格式

历史版本:

  • 完整版(同时提供硬盘拷贝,1.02GB):tar.gz格式
  • 迷你版(样例数据, 3KB):tar.gz格式
  • 精简版(一个月数据, 437MB):tar.gz格式

1.3 搜狐新闻数据(SogouCS)

SogouCS来自搜狐新闻2012年6月—7月期间国内,国际,体育,社会,娱乐等18个频道的新闻数据,提供URL和正文信息,格式如下:

<doc>
<url>页面URL</url>
<docno>页面ID</docno>
<contenttitle>页面标题</contenttitle>
<content>页面内容</content>
</doc>

为了满足不同需求,SogouCS分为了不同的版本,差别体现在数据量上:

  • 迷你版(样例数据, 110KB):tar.gz格式,zip格式
  • 完整版(648MB):tar.gz格式,zip格式

历史版本:

  • 完整版(同时提供硬盘拷贝,65GB):tar.gz格式
  • 迷你版(样例数据, 1KB):tar.gz格式
  • 精简版(一个月数据, 347MB):tar.gz格式
  • 特别版(王灿辉WWW08论文数据, 647KB):tar.gz格式

1.4 文本分类评价(SogouTCE)

SogouTCE用以评估文本分类结果的正确性,语料来自搜狐等多个新闻网站近20个频道,格式如下:

URL前缀\t对应类别标记

SogouTCE只包含URL前缀和对应类别标记的数据,原始的文本数据可以使用SogouCA和SogouCS。

1.5 互联网词库(SogouW)

SogouW来自于对SOGOU搜索引擎所索引到的中文互联网语料的统计分析,统计所进行的时间是2006年10月,涉及到的互联网语料规模在1亿页面以上。统计出的词条数约为15万条高频词,除标出这部分词条的词频信息之外,还标出了常用的词性信息,格式如下:

A 词频 词性1 词性2 … 词性NB 词频 词性1 词性2 … 词性NC 词频 词性1 词性2 … 词性N

2. 阿里云天池

天池作为国内较为出名的比赛平台,除了发布一系列比赛信息及任务外,还有很多教学视频及资料可供大家学习成长。当然,针对本文所述内容,重中之重便是其中也不乏一些开源数据集。
网址:https://tianchi.aliyun.com/dataset/

3. 百度大脑|AI开放平台

百度AI开放平台上不仅只有他们开放的一些功能的API,在其开发平台上,也会提供一系列的数据集,用于大家学习实践。其中大部分数据集也是大家本着开源的心态共享上去的,因此格式复杂。
网址:https://aistudio.baidu.com/aistudio/datasetoverview

4. IMDB Reviews

互联网电影资料库(Internet Movie Database,简称IMDB)是一个关于电影演员、电影、电视节目、电视明星和电影制作的在线数据库。IMDB Reviews是记录了观众对IMDB中作品的评价。除了训练和测试评估示例之外,还有更多未标记的数据可供使用,包括文本和预处理的词袋格式。IMDB Reviews包含25,000个高度差异化的电影评论用于训练,25,000个测试,通常用于英文的情感理解。

5. Sentiment140

Sentiment140是一个可用于情感分析的数据集,包含160,000条推文。一个流行的数据集,非常适合开始你的NLP旅程。情绪已经从数据中预先移除。最终的数据集具有以下6个特征:

  • 推文的极性
  • 推文的ID
  • 推文的日期
  • 问题
  • 推文的用户名
  • 推文的文本

6. 今日头条新闻文本分类数据集

今日头条新闻文本分类数据集共382688条,分布于15个分类中,分类code与名称:

  • 100 民生 故事 news_story
  • 101 文化 文化 news_culture
  • 102 娱乐 娱乐 news_entertainment
  • 103 体育 体育 news_sports
  • 104 财经 财经 news_finance
  • 106 房产 房产 news_house
  • 107 汽车 汽车 news_car
  • 108 教育 教育 news_edu
  • 109 科技 科技 news_tech
  • 110 军事 军事 news_military
  • 112 旅游 旅游 news_travel
  • 113 国际 国际 news_world
  • 114 证券 股票 stock
  • 115 农业 三农 news_agriculture
  • 116 电竞 游戏 news_game
    数据格式为:
6552431613437805063_!_102_!_news_entertainment_!_谢娜为李浩菲澄清网络谣言,

之后她的两个行为给自己加分_!_佟丽娅,网络谣言,快乐大本营,李浩菲,谢娜,观众们

每行为一条数据,以_!_分割的个字段,从前往后分别是 新闻ID,分类code,分类名称,新闻字符串(仅含标题),新闻关键词.

项目主页在github上,运行get_data.py即可获取实时获取对应的数据。

https://github.com/fateleak/toutiao-text-classfication-dataset

也可以直接使用github上的历史数据进行分析。
https://github.com/fateleak/toutiao-text-classfication-dataset/raw/master/toutiao_cat_data.txt.zip

写在最后

本文最后推荐一个非常好的开源的NLP学习项目,其简介为:
NLP民工的乐园: 几乎最全的中文NLP资源库

  • 词库
  • 工具包
  • 学习资料

网址: https://github.com/fighting41love/funNLP

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值