pandas学习笔记:02、统计电影分类情况

'''
    -*- coding: utf-8 -*-
    @Author  : Dongze Xu
    @Time    : 2021/12/10 20:35
    @Function: 
'''
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

'''
    设置dataframe显示数据
'''
#显示Dateframe所有行
pd.set_option('display.max_rows',None)
#显示Dateframe所有列(参数设置为None代表显示所有行,也可以自行设置数字)
pd.set_option('display.max_columns',None)
#设置Dataframe数据的显示长度,默认为50
pd.set_option('max_colwidth',200)
#禁止Dateframe自动换行(设置为Flase不自动换行,True反之)
pd.set_option('expand_frame_repr', False)

movie = pd.read_csv("./data/IMDB-Movie-Data.csv")
# print(movie.head())

'''
    我们希望统计电影分类(genre)的情况
    分析:
        1、先将Genre列的数据存储到一个列表里面,由于每行不止一个数据且用“,”分割,我们可以用split方法进行切分
        2、然后我们需要知道有多少种不同种类得电影,再对整个列表进行去重
        3、我们生成一个二维矩阵来存储统计的信息,行数是数据的总行数,列代表不同种类的电影名称,i行j列代表的就是i行是否出现过j列的数据
        4、对矩阵每一列进行求和,得出每个电影出现次数的总和,然后进行排序
        5、画图
'''
#1、先将Genre列的数据存储到一个列表里面,由于每行不止一个数据且用“,”分割,我们可以用split方法进行切分
movie_list = [i.split(",") for i in movie["Genre"]]
single_movie_list = [j for i in movie_list for j in i]
#2、然后我们需要知道有多少种不同种类得电影,再对整个列表进行去重
fin_movie_list = np.unique(single_movie_list)
print(fin_movie_list)

#3、我们生成一个二维矩阵来存储统计的信息,行数是数据的总行数,列代表不同种类的电影名称,i行j列代表的就是i行是否出现过j列的数据
zeros_matrix = np.zeros([movie.shape[0], fin_movie_list.shape[0]])
data_matrix = pd.DataFrame(zeros_matrix, columns=fin_movie_list)

#遍历movie_list得到原数据每行的电影名
#在对应位置上给相应的电影名加1,统计出现次数
for i in range(1000):
    str_list = movie_list[i]
    data_matrix.loc[i, movie_list[i]] = 1

print(data_matrix.head())

#4、对矩阵每一列进行求和,得出每个电影出现次数的总和,然后进行排序
genre = data_matrix.sum().sort_values(ascending=True)

# print(genre)
genre.plot(kind="bar", colormap="cool", figsize=(30, 15), fontsize=16)
plt.show()

在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

xMathematics

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值