项目描述:用Python包pandas、matplotlib等对互联网电影数据进行分析和可视化。
数据源:https://pan.baidu.com/s/1JI9MzYUUfDLHp2W4Bb4nEg 提取码:05mf
相关字段说明:
director_name:导演
actor_1_name:主演
imdb_score:imdb评分
movie_title:电影名称
title_year:年份
genre:类型
gross:票房
项目任务:
1、查看票房的统计信息
2、imdb评分统计
3、电影产量趋势
4、电影类型分析(个数、票房统计等)
具体实现:
1、加载数据
import
2、查看数据
def
3、处理缺失数据
def
4、完成各项目任务
4.1 分析票房统计信息
def
4.2 imdb评分统计
# 查看各imdb评分的电影个数
# 查看top20导演的平均imdb评分
4.3 电影产量趋势
df_movie_years
4.4 电影类型分析
重新构造数据集
def
电影类型数量统计
# 电影类型个数统计
df_genres = get_genres_data(df_data)
genres_count = df_genres.groupby('genre').size()
plt.figure(figsize=(15.0, 10.0))
genres_count.plot(kind='barh')
plt.title('电影类型数量统计', fontsize=20)
plt.xlabel('数量', fontsize=18)
plt.ylabel('类型', fontsize=18)
plt.savefig('./output/genres_count.png')
plt.show()
电影类型票房统计
# 电影类型票房统计