pandas系列总结案例

最新推荐文章于 2023-06-24 16:21:14 发布

VIP文章「已注销」

最新推荐文章于 2023-06-24 16:21:14 发布

阅读量620

点赞数 1

分类专栏： python 数据分析数据挖掘机器学习文章标签： pandas系列总结案例数据处理 python

本文链接：https://blog.csdn.net/Jack_yun_feng/article/details/99655137

版权

pandas系列总结案例

1 需求

现在我们有一组从2006年到2016年1000部最流行的电影数据

数据来源：https://www.kaggle.com/damianpanek/sunday-eda/data

问题1：我们想知道这些电影数据中评分的平均分，导演的人数等信息，我们应该怎么获取？
问题2：对于这一组电影数据，如果我们想知道rating，runtime的分布情况，应该如何呈现数据？
问题3：对于这一组电影数据，如果我们希望统计电影分类(genre)的情况，应该如何处理数据？

2 实现

首先获取导入包，获取数据

%matplotlib inline
import pandas  as pd 
import numpy as np
from matplotlib import pyplot as plt



#文件的路径
path = "./data/IMDB-Movie-Data.csv"
#读取文件
df = pd.read_csv(path)

2.1 问题一：

我们想知道这些电影数据中评分的平均分，导演的人数等信息，我们应该怎么获取？

得出评分的平均分

使用mean函数


df["Rating"].mean()

得出导演人数信息

求出唯一值，然后进行形状获取

## 导演的人数
# df["Director"].unique().shape[0]
np.unique(df["Director"]).shape[0]

644

2.2 问题二：

对于这一组电影数据，如果我们想Rating，Runtime (Minutes)的分布情况，应该如何呈现数据？

直接呈现，以直方图的形式

选择分数列数据，进行plot

df["Rating"].plot(kind='hist',

最低0.47元/天解锁文章

「已注销」

关注

1
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
pandas系列总结案例

pandas系列总结案例1 需求现在我们有一组从2006年到2016年1000部最流行的电影数据数据来源：https://www.kaggle.com/damianpanek/sunday-eda/data问题1：我们想知道这些电影数据中评分的平均分，导演的人数等信息，我们应该怎么获取？问题2：对于这一组电影数据，如果我们想知道rating，runtime的分布情况，应该如何呈现数据...
复制链接

扫一扫