Dataset之Rotten Tomatoes:Rotten Tomatoes影评数据集简介、下载、使用方法之详细攻略

Dataset之Rotten Tomatoes:Rotten Tomatoes影评数据集简介、下载、使用方法之详细攻略

 

 

 

目录

Rotten Tomatoes影评数据集简介

Rotten Tomatoes影评数据集下载

Rotten Tomatoes影评数据集使用方法


 

 

 

 

Rotten Tomatoes影评数据集简介

       烂番茄(Rotten Tomatoes)网站影评短语数据,对电影进行评价。每个影评可以归入下面5个类项:

  • 不给力(negative),
  • 不太给力(somewhat negative),
  • 中等(neutral),
  • 有点给力(somewhat positive),
  • 给力(positive)。

      解释变量不会总是直白的语言,因为影评内容千差万别,有讽刺的,否定的,以及其他语义的表述,语义并不直白,这些都会让分类充满挑战。

      Sentiment是响应变量,0是不给力(negative),4是给力(positive),其他以此类推。Phrase列是影评的内容。影评中每句话都被分割成一行。我们不需要考虑PhraseId列和SentenceId列。
     通过下边的代码,可以看出,近51%都是评价为2中等(neutral)的电影。可见,在这个问题里,准确率不是一个有信息量的评价指标,因为即使很烂的分类器预测出中等水平的结果,其准确率也是51%。3有点给力(somewhat positive)的电影占21%, 4给力(positive)的电影占6%,共占27%。剩下的21%就是不给力(negative),不太给力(somewhat negative)的电影。

 

Rotten Tomatoes影评数据集下载

Rotten Tomatoes影评数据集下载

 

 

Rotten Tomatoes影评数据集使用方法

import zipfile
# 压缩节省空间
z = zipfile.ZipFile('mlslpic/train.zip')
df = pd.read_csv(z.open(z.namelist()[0]), header=0, delimiter='\t')

df.head()
df.count()
-------------------------
PhraseId      156060
SentenceId    156060
Phrase        156060
Sentiment     156060
dtype: int64


df.Phrase.head(10)
df.Sentiment.describe()
-----------------------
count    156060.000000
mean          2.063578
std           0.893832
min           0.000000
25%           2.000000
50%           2.000000
75%           3.000000
max           4.000000
Name: Sentiment, dtype: float64


df.Sentiment.value_counts()
-----------------------
2    79582
3    32927
1    27273
4     9206
0     7072
dtype: int64


df.Sentiment.value_counts()/df.Sentiment.count()
2    0.509945
3    0.210989
1    0.174760
4    0.058990
0    0.045316
dtype: float64


可以看出,近51%都是评价为2中等(neutral)的电影。可见,在这个问题里,准确率不是一个有信息量的评价指标,
因为即使很烂的分类器预测出中等水平的结果,其准确率也是51%。3有点给力(somewhat positive)的电影占21%, 
4给力(positive)的电影占6%,共占27%。剩下的21%就是不给力(negative),不太给力(somewhat negative)的电影。












 

 

 

  • 8
    点赞
  • 27
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

一个处女座的程序猿

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值