大型电影评论数据集v1.0
目录
Large Movie Review Dataset v1.0大型电影评论数据集v1.0
- 数据集下载地址
- 数据集介绍译文
- 原文
数据集下载地址:http://ai.stanford.edu/~amaas/data/sentiment/
1. Overview(概述)
此数据集包含电影评论及其关联的二进制情绪极性标签。它旨在作为情绪分类的基准。本文档概述了如何收集数据集,以及如何使用提供的文件。
2. Dataset (数据集)
核心数据集包含50,000个评论,均匀分为25k训练集和25k测试集。标签的整体分布是平衡的(25k pos和25k neg)。我们还包括另外50,000个未标记文档,用于无监督学习。在整个系列中,任何给定的电影都不允许超过30条评论,因为对同一部电影的评论往往具有相关评级。此外,训练集和测试集包含一组不相交的电影,因此通过记忆电影唯一的术语及其与观察到的标签相关联,不会获得显着的性能。在标记的训练/测试集中,负面评论的评分<= 4分,正评价的分数> = 7分(满分10分)。因此,评分更中性的评分不包括在训练/测试集中。在无监督的集合中,包括任何评级的评论,并且偶数个评论> 5且<= 5。
3. Files
有两个顶级目录[train /,test /]对应于训练和测试集。每个包含用于评论的[pos /,neg /]目录,其中二进制标签为正数和负数。在这些目录中,评论存储在按照惯例[[id] _ [评级] .txt]命名的文本文件中,其中[id]是唯一ID,[rating]是1-10评级的评论的星级评定。例如,文件[test / pos / 200_8.txt]是来自IMDb的具有唯一ID 200和星级8/10的正标记测试集示例的文本。 [train / unsup /]目录的所有评级都为0,因为这部分数据集的省略了评级。

这个大型电影评论数据集包含了50,000条带有二元情感标签的评论,用于情绪分类的基准测试。数据集均衡地分为25,000个训练和测试集,附加50,000个未标记评论用于无监督学习。所有评论均从IMDb获取,评分低于4或高于7的评论用于标记训练和测试集。"
102314184,8828609,C/C++引用与指针深度解析,"['指针和引用', 'C/C++', '程序员', '编程']
最低0.47元/天 解锁文章

3228

被折叠的 条评论
为什么被折叠?



