大型电影评论数据集v1.0
目录
Large Movie Review Dataset v1.0大型电影评论数据集v1.0
- 数据集下载地址
- 数据集介绍译文
- 原文
数据集下载地址:http://ai.stanford.edu/~amaas/data/sentiment/
1. Overview(概述)
此数据集包含电影评论及其关联的二进制情绪极性标签。它旨在作为情绪分类的基准。本文档概述了如何收集数据集,以及如何使用提供的文件。
2. Dataset (数据集)
核心数据集包含50,000个评论,均匀分为25k训练集和25k测试集。标签的整体分布是平衡的(25k pos和25k neg)。我们还包括另外50,000个未标记文档,用于无监督学习。在整个系列中,任何给定的电影都不允许超过30条评论,因为对同一部电影的评论往往具有相关评级。此外,训练集和测试集包含一组不相交的电影,因此通过记忆电影唯一的术语及其与观察到的标签相关联,不会获得显着的性能。在标记的训练/测试集中,负面评论的评分<= 4分,正评价的分数> = 7分(满分10分)。因此,评分更中性的评分不包括在训练/测试集中。在无监督的集合中,包括任何评级的评论,并且偶数个评论> 5且<= 5。
3. Files
有两个顶级目录[train /,test /]对应于训练和测试集。每个包含用于评论的[pos /,neg /]目录,其中二进制标签为正数和负数。在这些目录中,评论存储在按照惯例[[id] _ [评级] .txt]命名的文本文件中,其中[id]是唯一ID,[rating]是1-10评级的评论的星级评定。例如,文件[test / pos / 200_8.txt]是来自IMDb的具有唯一ID 200和星级8/10的正标记测试集示例的文本。 [train / unsup /]目录的所有评级都为0,因为这部分数据集的省略了评级。