豆瓣电影Top250爬取的数据的一些简单可视化笔记

最新推荐文章于 2024-08-07 21:44:48 发布

GeorgeCaoJ

最新推荐文章于 2024-08-07 21:44:48 发布

阅读量1.2w

点赞数 4

分类专栏： python 文章标签： python 可视化豆瓣数据

本文链接：https://blog.csdn.net/cjooo0/article/details/51456752

版权

本文记录了从豆瓣电影Top250爬取数据后的简单可视化过程，包括评分分布、出品年份分布、电影排名与评分、评价人数的关系，以及按国家和类型的分布。通过分析发现，评价人数多的电影评分更客观，豆瓣排名考虑了评价人数和评分，美国电影数量领先，爱情题材电影最受观众欢迎。

摘要由CSDN通过智能技术生成

豆瓣Top250网址
将之前爬取到的豆瓣电影进行简单的可视化：
数据列表保存为CSV格式，如图这里写图片描述

#!-*- coding:utf-8 -*-
import pandas as pd
import numpy as np
import matplotlib.pylab as plt
import re
from numpy import rank
from builtins import map
from datashape.coretypes import Map
#http://www.jianshu.com/p/0a76c94e9db7 参考了简书上的饼状图教程
#切换工作目录，IPython运行%pylab
Movie=pd.read_csv('MovieTop250.csv') #数据读取

#Rating pie
Rating=Movie['Rating10']
bins=[8,8.5,9,9.5,10]  #分区(0,8],(8,8.5]....
rat_cut=pd.cut(Rating,bins=bins)
rat_class=rat_cut.value_counts()  #统计区间个数
rat_pct=rat_class/rat_class.sum()*100  #计算百分比
rat_arr_pct=np.array(rat_pct)#将series格式转成array，为了避免pie中出现name
f1=plt.figure(figsize=(9,9))
plt.title('DoubanMovieTop250\nRatingDistributin(0~10)')
plt.pie(rat_arr_pct,labels=rat_pct.index,colors=['r','g','b','c'],autopct='%.2f%%',startangle=75,explode=[0.05]*4)  #autopct属性显示百分比的值
plt.savefig('MovieTop250.RatingDistributin(0~10).png')
f1.show()
#explode:将某部分爆炸出来， 使用括号，将第一块分割出来，数值的大小是分