Large Movie Review Dataset v1.0

最新推荐文章于 2024-05-27 14:46:23 发布

github_39012302

最新推荐文章于 2024-05-27 14:46:23 发布

阅读量2k

点赞数 3

文章标签： IMDB 数据集文本分类情感分析

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/github_39012302/article/details/88560292

版权

大型电影评论数据集v1.0

目录

Large Movie Review Dataset v1.0大型电影评论数据集v1.0

数据集下载地址
数据集介绍译文
原文

数据集下载地址：http://ai.stanford.edu/~amaas/data/sentiment/

1. Overview（概述）

此数据集包含电影评论及其关联的二进制情绪极性标签。它旨在作为情绪分类的基准。本文档概述了如何收集数据集，以及如何使用提供的文件。

2. Dataset （数据集）

核心数据集包含50,000个评论，均匀分为25k训练集和25k测试集。标签的整体分布是平衡的（25k pos和25k neg）。我们还包括另外50,000个未标记文档，用于无监督学习。在整个系列中，任何给定的电影都不允许超过30条评论，因为对同一部电影的评论往往具有相关评级。此外，训练集和测试集包含一组不相交的电影，因此通过记忆电影唯一的术语及其与观察到的标签相关联，不会获得显着的性能。在标记的训练/测试集中，负面评论的评分<= 4分，正评价的分数> = 7分（满分10分）。因此，评分更中性的评分不包括在训练/测试集中。在无监督的集合中，包括任何评级的评论，并且偶数个评论> 5且<= 5。

3. Files

有两个顶级目录[train /，test /]对应于训练和测试集。每个包含用于评论的[pos /，neg /]目录，其中二进制标签为正数和负数。在这些目录中，评论存储在按照惯例[[id] _ [评级] .txt]命名的文本文件中，其中[id]是唯一ID，[rating]是1-10评级的评论的星级评定。例如，文件[test / pos / 200_8.txt]是来自IMDb的具有唯一ID 200和星级8/10的正标记测试集示例的文本。 [train / unsup /]目录的所有评级都为0，因为这部分数据集的省略了评级。

最低0.47元/天解锁文章

github_39012302

关注

3
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
Large Movie Review Dataset v1.0

大型电影评论数据集v1.0目录Large Movie Review Dataset v1.0大型电影评论数据集v1.0数据集下载地址数据集介绍译文原文数据集下载地址：http://ai.stanford.edu/~amaas/data/sentiment/1. Overview（概述）此数据集包含电影评论及其关联的二进制情绪极性标签。它旨在作为情绪分类的基准。本文档概...
复制链接

扫一扫

github_39012302 CSDN认证博客专家 CSDN认证企业博客

码龄7年

6: 原创

114万+: 周排名

159万+: 总排名

2万+: 访问

: 等级

375: 积分

2: 粉丝

6: 获赞

7: 评论

27: 收藏

私信

关注

热门文章

分类专栏

秋招 2篇
学习 6篇
科研 1篇
兴趣

最新评论

秋招记录-中国银行软开（西安）
Sheng_Happiness: 想问一下您的秋招最终去向和您的学历背景，非常感谢!
NLP&CC2014中文实体链接任务说明
LiuOnaroll: 请问官网上只有测试集，训练集哪里下载呢
秋招记录-交通银行省分行
qq_41842562: 最后还有终面吗？最后去了交行吗/
实体链接小结（一）
hzq201435: 你好，在候选实体生成过程中，每个提及都要和知识图谱中每个实体比较才能选出一组候选实体吗
NLP&CC2014中文实体链接任务说明
snowcement 回复 github_39012302: 非常感谢！

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。