Large Movie Review Dataset v1.0

大型电影评论数据集v1.0

目录

Large Movie Review Dataset v1.0大型电影评论数据集v1.0


  1. 数据集下载地址
  2. 数据集介绍译文
  3. 原文

数据集下载地址:http://ai.stanford.edu/~amaas/data/sentiment/

1. Overview(概述)

此数据集包含电影评论及其关联的二进制情绪极性标签。它旨在作为情绪分类的基准。本文档概述了如何收集数据集,以及如何使用提供的文件。

2. Dataset (数据集)

核心数据集包含50,000个评论,均匀分为25k训练集和25k测试集。标签的整体分布是平衡的(25k pos和25k neg)。我们还包括另外50,000个未标记文档,用于无监督学习。在整个系列中,任何给定的电影都不允许超过30条评论,因为对同一部电影的评论往往具有相关评级。此外,训练集和测试集包含一组不相交的电影,因此通过记忆电影唯一的术语及其与观察到的标签相关联,不会获得显着的性能。在标记的训练/测试集中,负面评论的评分<= 4分,正评价的分数> = 7分(满分10分)。因此,评分更中性的评分不包括在训练/测试集中。在无监督的集合中,包括任何评级的评论,并且偶数个评论> 5且<= 5。

3. Files

有两个顶级目录[train /,test /]对应于训练和测试集。每个包含用于评论的[pos /,neg /]目录,其中二进制标签为正数和负数。在这些目录中,评论存储在按照惯例[[id] _ [评级] .txt]命名的文本文件中,其中[id]是唯一ID,[rating]是1-10评级的评论的星级评定。例如,文件[test / pos / 200_8.txt]是来自IMDb的具有唯一ID 200和星级8/10的正标记测试集示例的文本。 [train / unsup /]目录的所有评级都为0,因为这部分数据集的省略了评级。

  • 3
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值