Large Movie Review Dataset v1.0

这个大型电影评论数据集包含了50,000条带有二元情感标签的评论,用于情绪分类的基准测试。数据集均衡地分为25,000个训练和测试集,附加50,000个未标记评论用于无监督学习。所有评论均从IMDb获取,评分低于4或高于7的评论用于标记训练和测试集。" 102314184,8828609,C/C++引用与指针深度解析,"['指针和引用', 'C/C++', '程序员', '编程']
摘要由CSDN通过智能技术生成

大型电影评论数据集v1.0

目录

Large Movie Review Dataset v1.0大型电影评论数据集v1.0


  1. 数据集下载地址
  2. 数据集介绍译文
  3. 原文

数据集下载地址:http://ai.stanford.edu/~amaas/data/sentiment/

1. Overview(概述)

此数据集包含电影评论及其关联的二进制情绪极性标签。它旨在作为情绪分类的基准。本文档概述了如何收集数据集,以及如何使用提供的文件。

2. Dataset (数据集)

核心数据集包含50,000个评论,均匀分为25k训练集和25k测试集。标签的整体分布是平衡的(25k pos和25k neg)。我们还包括另外50,000个未标记文档,用于无监督学习。在整个系列中,任何给定的电影都不允许超过30条评论,因为对同一部电影的评论往往具有相关评级。此外,训练集和测试集包含一组不相交的电影,因此通过记忆电影唯一的术语及其与观察到的标签相关联,不会获得显着的性能。在标记的训练/测试集中,负面评论的评分<= 4分,正评价的分数> = 7分(满分10分)。因此,评分更中性的评分不包括在训练/测试集中。在无监督的集合中,包括任何评级的评论,并且偶数个评论> 5且<= 5。

3. Files

有两个顶级目录[train /,test /]对应于训练和测试集。每个包含用于评论的[pos /,neg /]目录,其中二进制标签为正数和负数。在这些目录中,评论存储在按照惯例[[id] _ [评级] .txt]命名的文本文件中,其中[id]是唯一ID,[rating]是1-10评级的评论的星级评定。例如,文件[test / pos / 200_8.txt]是来自IMDb的具有唯一ID 200和星级8/10的正标记测试集示例的文本。 [train / unsup /]目录的所有评级都为0,因为这部分数据集的省略了评级。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值