SMP2020微博情绪分类技术评测数据集
SMP2020微博情绪分类技术评测数据集
本次技术评测使用的标注数据集由哈尔滨工业大学社会计算与信息检索研究中心提供,原始数据源于新浪微博,由微热点大数据研究院提供,数据集分为两部分。
第一部分为通用微博数据集,该数据集内的微博内容是随机获取到微博内容,不针对特定的话题,覆盖的范围较广。
第二部分为疫情微博数据集,该数据集内的微博内容是在疫情期间使用相关关键字筛选获得的疫情微博,其内容与新冠疫情相关。
因此,本次评测训练集包含上述两类数据:通用微博训练数据和疫情微博训练数据,相对应的,测试集也分为通用微博测试集和疫情微博测试集。参赛成员可以同时使用两种训练数据集来训练模型。
每条微博被标注为以下六个类别之一:neutral(无情绪)、happy(积极)、angry(愤怒)、sad(悲伤)、fear(恐惧)、surprise(惊奇)。
通用微博训练数据集包括27,768条微博,验证集包含2,000条微博,测试数据集包含5,000条微博。
疫情微博训练数据集包括8,606条微博,验证集包含2,000条微博,测试数据集包含3,000
jblas-1.2.4-SNAPSHOT
里MLlib库需要依赖[jblas线性代数库](http://jblas.org/),如果大家编译jblas的jar包有问题,可以获取。把jar包加到lib文件夹后,记得在spark-env.sh添加配置
Spark机器学习文本处理数据集
为了说明概念,我们将使用一个非常有名的数据集,叫作20 Newsgroups;这个数据集一般用来做文本分类。这是一个由20个不同主题的新闻组消息组成的集合,有很多种不同的数据格式。对于我们的任务来说,可以使用按日期组织的数据集。
Spark机器学习推荐模型数据集
我们将使用推荐引擎中使用的电影打分数据集,这个数据集主要分为三个部
分:第一个是电影打分的数据集(在u.data文件中), 第二个是用户数据(u.user),第三个是电影数据(u.item)。除此之外,我们从题材文件中获取了每个电影的题材(u.genre)。
Spark机器学习回归模型数据集
为了阐述本章的一些概念,我们选择了bike sharing数据集做实验。这个数据集记录了bike
sharing系统每小时自行车的出租次数。另外还包括日期、时间、天气、季节和节假日等相关信息。
Spark机器学习分类模型的数据集
考虑到推荐模型中的 MovieLens 数据集和分类问题无关,本章将使用另外一个数据集。这个
数据集源自 Kaggle 比赛,由 StumbleUpon 提供。比赛的问题涉及网页中推荐的页面是短暂(短暂
存在,很快就不流行了)还是长久(长时间流行)。