数据来源是知乎乎友做完数据分析展示,分享提供的。我们来学习一下。
数据项有:豆瓣评论数,豆瓣评分,上映日期,主演,制片国家或者地区,别名,导演,片长,类型,编剧,语言。一共大概有两千多条数据。不是特别的多。
我们首先来根据评分判断一下,是否服从正太分布。
fig = plt.figure(figsize = (10,6))
plt.subplots_adjust(hspace=0.2)
ax1 = fig.add_subplot(2,1,1)
df['豆瓣评分'].plot.hist(stacked=True,bins=50,color = 'green',alpha=0.5,grid=True)
plt.ylim([0,150])
plt.title('豆瓣评分数据分布-直方图')
ax2 = fig.add_subplot(2,1,2)
color = dict(boxes='DarkGreen', whiskers='DarkOrange', medians='DarkBlue', caps='Gray')
df['豆瓣评分'].plot.box(vert=False, grid = True,color = color)
plt.title('豆瓣评分数据分布-箱型图')
df['豆瓣评分'].describe()