pandas学习笔记：02、统计电影分类情况

最新推荐文章于 2021-12-24 11:46:03 发布

xMathematics

最新推荐文章于 2021-12-24 11:46:03 发布

阅读量1.1k

点赞数

分类专栏：深度学习文章标签：分类机器学习 python pandas 数据分析

本文链接：https://blog.csdn.net/GeekDongHuang/article/details/121866579

版权

深度学习专栏收录该内容

9 篇文章 3 订阅

订阅专栏

'''
    -*- coding: utf-8 -*-
    @Author  : Dongze Xu
    @Time    : 2021/12/10 20:35
    @Function: 
'''
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

'''
    设置dataframe显示数据
'''
#显示Dateframe所有行
pd.set_option('display.max_rows',None)
#显示Dateframe所有列(参数设置为None代表显示所有行，也可以自行设置数字)
pd.set_option('display.max_columns',None)
#设置Dataframe数据的显示长度，默认为50
pd.set_option('max_colwidth',200)
#禁止Dateframe自动换行(设置为Flase不自动换行，True反之)
pd.set_option('expand_frame_repr', False)

movie = pd.read_csv("./data/IMDB-Movie-Data.csv")
# print(movie.head())

'''
    我们希望统计电影分类(genre)的情况
    分析：
        1、先将Genre列的数据存储到一个列表里面，由于每行不止一个数据且用“，”分割，我们可以用split方法进行切分
        2、然后我们需要知道有多少种不同种类得电影，再对整个列表进行去重
        3、我们生成一个二维矩阵来存储统计的信息，行数是数据的总行数，列代表不同种类的电影名称，i行j列代表的就是i行是否出现过j列的数据
        4、对矩阵每一列进行求和，得出每个电影出现次数的总和，然后进行排序
        5、画图
'''
#1、先将Genre列的数据存储到一个列表里面，由于每行不止一个数据且用“，”分割，我们可以用split方法进行切分
movie_list = [i.split(",") for i in movie["Genre"]]
single_movie_list = [j for i in movie_list for j in i]
#2、然后我们需要知道有多少种不同种类得电影，再对整个列表进行去重
fin_movie_list = np.unique(single_movie_list)
print(fin_movie_list)

#3、我们生成一个二维矩阵来存储统计的信息，行数是数据的总行数，列代表不同种类的电影名称，i行j列代表的就是i行是否出现过j列的数据
zeros_matrix = np.zeros([movie.shape[0], fin_movie_list.shape[0]])
data_matrix = pd.DataFrame(zeros_matrix, columns=fin_movie_list)

#遍历movie_list得到原数据每行的电影名
#在对应位置上给相应的电影名加1，统计出现次数
for i in range(1000):
    str_list = movie_list[i]
    data_matrix.loc[i, movie_list[i]] = 1

print(data_matrix.head())

#4、对矩阵每一列进行求和，得出每个电影出现次数的总和，然后进行排序
genre = data_matrix.sum().sort_values(ascending=True)

# print(genre)
genre.plot(kind="bar", colormap="cool", figsize=(30, 15), fontsize=16)
plt.show()