NLP学习过程中常用数据

最新推荐文章于 2024-04-26 17:39:52 发布

在读幼稚园程序员

最新推荐文章于 2024-04-26 17:39:52 发布

阅读量651

点赞数

文章标签：自然语言处理

原文链接：https://github.com/duoergun0729/nlp/blob/master/%E5%B8%B8%E7%94%A8%E6%95%B0%E6%8D%AE%E9%9B%86%E7%AE%80%E4%BB%8B.md

版权

NLP项目常用数据

概述
数据集来源

概述

在NLP项目中，主要的项目包含：文本分类、舆情分析、摘要抽取、文本纠错、情感分析以及智能分词等。而在学习这类项目的过程中，在了解理论的同时，还需要自己动手实训。因此数据集对于我们来说是非常重要的。以下将介绍几个开源的数据集。

数据集来源

1. 搜狗实验室数据

搜狗实验室（Sogo Labs）是搜狗搜索核心研发团队对外交流的窗口，包含数据资源、数据挖掘云、研究合作等几个栏目。数据资源包括评测集合、语料数据、新闻数据、图片数据和自然语言处理相关数据，网址为http://www.sogou.com/labs/resource/list_pingce.php

1.1 互联网语料库(SogouT)

SogouT来自互联网各种类型的1.3亿个原始网页, 压缩前的大小超过了5TB，格式如下：

// 数据存储示例
<doc>
<docno>页面ID</docno>
<url>页面URL</url>
页面原始内容
</doc>

为了满足不同需求，SogouT分为了不同的版本，差别体现在数据量上：

迷你版(样例数据, 61KB)：tar.gz格式,zip格式
完整版(1TB)：(硬盘拷贝)
历史版本(130GB)：V2.0(硬盘拷贝)

1.2 全网新闻数据(SogouCA)

SogouCA来自若干新闻站点2012年6月—7月期间国内，国际，体育，社会，娱乐等18个频道的新闻数据，提供URL和正文信息，格式如下：

<doc>
<url>页面URL</url>
<docno>页面ID</docno>
<contenttitle>页面标题</contenttitle>
<content>页面内容</content>
</doc>

为了满足不同需求，SogouCA分为了不同的版本，差别体现在数据量上：

迷你版(样例数据, 101KB)：tar.gz格式，zip格式
完整版(711MB)：tar.gz格式，zip格式

历史版本：

完整版(同时提供硬盘拷贝,1.02GB)：tar.gz格式
迷你版(样例数据, 3KB)：tar.gz格式
精简版(一个月数据, 437MB)：tar.gz格式

1.3 搜狐新闻数据(SogouCS)

SogouCS来自搜狐新闻2012年6月—7月期间国内，国际，体育，社会，娱乐等18个频道的新闻数据，提供URL和正文信息，格式如下：

<doc>
<url>页面URL</url>
<docno>页面ID</docno>
<contenttitle>页面标题</contenttitle>
<content>页面内容</content>
</doc>

为了满足不同需求，SogouCS分为了不同的版本，差别体现在数据量上：

迷你版(样例数据, 110KB)：tar.gz格式，zip格式
完整版(648MB)：tar.gz格式，zip格式

历史版本：

完整版(同时提供硬盘拷贝,65GB)：tar.gz格式
迷你版(样例数据, 1KB)：tar.gz格式
精简版(一个月数据, 347MB)：tar.gz格式
特别版(王灿辉WWW08论文数据, 647KB)：tar.gz格式

1.4 文本分类评价(SogouTCE)

SogouTCE用以评估文本分类结果的正确性，语料来自搜狐等多个新闻网站近20个频道，格式如下：

URL前缀\t对应类别标记

SogouTCE只包含URL前缀和对应类别标记的数据，原始的文本数据可以使用SogouCA和SogouCS。

1.5 互联网词库(SogouW)

SogouW来自于对SOGOU搜索引擎所索引到的中文互联网语料的统计分析，统计所进行的时间是2006年10月，涉及到的互联网语料规模在1亿页面以上。统计出的词条数约为15万条高频词，除标出这部分词条的词频信息之外，还标出了常用的词性信息，格式如下：

词A 词频 词性1 词性2 … 词性N

词B 词频 词性1 词性2 … 词性N

词C 词频 词性1 词性2 … 词性N

2. 阿里云天池

天池作为国内较为出名的比赛平台，除了发布一系列比赛信息及任务外，还有很多教学视频及资料可供大家学习成长。当然，针对本文所述内容，重中之重便是其中也不乏一些开源数据集。
网址：https://tianchi.aliyun.com/dataset/

3. 百度大脑|AI开放平台

百度AI开放平台上不仅只有他们开放的一些功能的API，在其开发平台上，也会提供一系列的数据集，用于大家学习实践。其中大部分数据集也是大家本着开源的心态共享上去的，因此格式复杂。
网址：https://aistudio.baidu.com/aistudio/datasetoverview

4. IMDB Reviews

互联网电影资料库（Internet Movie Database，简称IMDB）是一个关于电影演员、电影、电视节目、电视明星和电影制作的在线数据库。IMDB Reviews是记录了观众对IMDB中作品的评价。除了训练和测试评估示例之外，还有更多未标记的数据可供使用，包括文本和预处理的词袋格式。IMDB Reviews包含25,000个高度差异化的电影评论用于训练，25,000个测试，通常用于英文的情感理解。

5. Sentiment140

Sentiment140是一个可用于情感分析的数据集，包含160,000条推文。一个流行的数据集，非常适合开始你的NLP旅程。情绪已经从数据中预先移除。最终的数据集具有以下6个特征：

推文的极性
推文的ID
推文的日期
问题
推文的用户名
推文的文本

6. 今日头条新闻文本分类数据集

今日头条新闻文本分类数据集共382688条，分布于15个分类中，分类code与名称：

100 民生故事 news_story
101 文化文化 news_culture
102 娱乐娱乐 news_entertainment
103 体育体育 news_sports
104 财经财经 news_finance
106 房产房产 news_house
107 汽车汽车 news_car
108 教育教育 news_edu
109 科技科技 news_tech
110 军事军事 news_military
112 旅游旅游 news_travel
113 国际国际 news_world
114 证券股票 stock
115 农业三农 news_agriculture
116 电竞游戏 news_game
数据格式为：

6552431613437805063_!_102_!_news_entertainment_!_谢娜为李浩菲澄清网络谣言，

之后她的两个行为给自己加分_!_佟丽娅,网络谣言,快乐大本营,李浩菲,谢娜,观众们

每行为一条数据，以_!_分割的个字段，从前往后分别是新闻ID，分类code，分类名称，新闻字符串（仅含标题），新闻关键词.

项目主页在github上，运行get_data.py即可获取实时获取对应的数据。

https://github.com/fateleak/toutiao-text-classfication-dataset

也可以直接使用github上的历史数据进行分析。
https://github.com/fateleak/toutiao-text-classfication-dataset/raw/master/toutiao_cat_data.txt.zip

写在最后

本文最后推荐一个非常好的开源的NLP学习项目，其简介为：
NLP民工的乐园: 几乎最全的中文NLP资源库

词库
工具包
学习资料

网址： https://github.com/fighting41love/funNLP

在读幼稚园程序员

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
1
评论
NLP学习过程中常用数据

NLP项目常用数据概述数据集来源1. 搜狗实验室数据1.1 互联网语料库(SogouT)1.2 全网新闻数据(SogouCA)1.3 搜狐新闻数据(SogouCS)1.4 文本分类评价(SogouTCE)1.5 互联网词库(SogouW)2. 阿里云天池3. 百度大脑|AI开放平台4. IMDB Reviews5. Sentiment1406. 今日头条新闻文本分类数据集写在最后概述在NLP项目中，主要的项目包含：文本分类、舆情分析、摘要抽取、文本纠错、情感分析以及智能分词等。而在学习这类项目的过程中，
复制链接

扫一扫