基于豆瓣爬取的电影数据所做的分析（练习）

最新推荐文章于 2024-09-27 08:30:00 发布

记得经常用脑

最新推荐文章于 2024-09-27 08:30:00 发布

阅读量4.1k

点赞数 4

分类专栏：数据分析文章标签：影片分析 python 数据分析

本文链接：https://blog.csdn.net/m0_37960498/article/details/87955237

版权

基于知乎用户分享的两千多条电影数据，本文分析了电影评分的正态分布，找出了评分低于4的烂片，并探讨了烂片的主要类型及主演。结果显示，大部分烂片类型集中在某特定地区，而主演鲜为人知。这些发现为观众提供了观影参考。

摘要由CSDN通过智能技术生成

数据来源是知乎乎友做完数据分析展示，分享提供的。我们来学习一下。

数据项有：豆瓣评论数，豆瓣评分，上映日期，主演，制片国家或者地区，别名，导演，片长，类型，编剧，语言。一共大概有两千多条数据。不是特别的多。

我们首先来根据评分判断一下，是否服从正太分布。

fig = plt.figure(figsize = (10,6))
plt.subplots_adjust(hspace=0.2)

ax1 = fig.add_subplot(2,1,1)  
df['豆瓣评分'].plot.hist(stacked=True,bins=50,color = 'green',alpha=0.5,grid=True)
plt.ylim([0,150])
plt.title('豆瓣评分数据分布-直方图')

ax2 = fig.add_subplot(2,1,2)
color = dict(boxes='DarkGreen', whiskers='DarkOrange', medians='DarkBlue', caps='Gray')
df['豆瓣评分'].plot.box(vert=False, grid = True,color = color) 
plt.title('豆瓣评分数据分布-箱型图')

df['豆瓣评分'].describe()