'''
-*- coding: utf-8 -*-
@Author : Dongze Xu
@Time : 2021/12/10 20:35
@Function:
'''
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
'''
设置dataframe显示数据
'''
#显示Dateframe所有行
pd.set_option('display.max_rows',None)
#显示Dateframe所有列(参数设置为None代表显示所有行,也可以自行设置数字)
pd.set_option('display.max_columns',None)
#设置Dataframe数据的显示长度,默认为50
pd.set_option('max_colwidth',200)
#禁止Dateframe自动换行(设置为Flase不自动换行,True反之)
pd.set_option('expand_frame_repr', False)
movie = pd.read_csv("./data/IMDB-Movie-Data.csv")
# print(movie.head())
'''
我们希望统计电影分类(genre)的情况
分析:
1、先将Genre列的数据存储到一个列表里面,由于每行不止一个数据且用“,”分割,我们可以用split方法进行切分
2、然后我们需要知道有多少种不同种类得电影,再对整个列表进行去重
3、我们生成一个二维矩阵来存储统计的信息,行数是数据的总行数,列代表不同种类的电影名称,i行j列代表的就是i行是否出现过j列的数据
4、对矩阵每一列进行求和,得出每个电影出现次数的总和,然后进行排序
5、画图
'''
#1、先将Genre列的数据存储到一个列表里面,由于每行不止一个数据且用“,”分割,我们可以用split方法进行切分
movie_list = [i.split(",") for i in movie["Genre"]]
single_movie_list = [j for i in movie_list for j in i]
#2、然后我们需要知道有多少种不同种类得电影,再对整个列表进行去重
fin_movie_list = np.unique(single_movie_list)
print(fin_movie_list)
#3、我们生成一个二维矩阵来存储统计的信息,行数是数据的总行数,列代表不同种类的电影名称,i行j列代表的就是i行是否出现过j列的数据
zeros_matrix = np.zeros([movie.shape[0], fin_movie_list.shape[0]])
data_matrix = pd.DataFrame(zeros_matrix, columns=fin_movie_list)
#遍历movie_list得到原数据每行的电影名
#在对应位置上给相应的电影名加1,统计出现次数
for i in range(1000):
str_list = movie_list[i]
data_matrix.loc[i, movie_list[i]] = 1
print(data_matrix.head())
#4、对矩阵每一列进行求和,得出每个电影出现次数的总和,然后进行排序
genre = data_matrix.sum().sort_values(ascending=True)
# print(genre)
genre.plot(kind="bar", colormap="cool", figsize=(30, 15), fontsize=16)
plt.show()
pandas学习笔记:02、统计电影分类情况
最新推荐文章于 2021-12-24 11:46:03 发布