Pandas使用explode实现一行变多行统计（三十）

最新推荐文章于 2023-11-15 15:14:59 发布

梦捷者

最新推荐文章于 2023-11-15 15:14:59 发布

阅读量1k

点赞数

分类专栏： Pandas使用

本文链接：https://blog.csdn.net/qq_41706810/article/details/106028856

版权

Pandas使用专栏收录该内容

38 篇文章 11 订阅

订阅专栏

解决实际问题：一个字段包含多个值，怎样将这个值拆分成多行，然后实现统计

比如：一个电影有多个分类、一个人有多个喜好，需要按分类、喜好做统计

1、读取数据

import pandas as pd

df = pd.read_csv(
    "./datas/movielens-1m/movies.dat",
    header=None,
    names="MovieID::Title::Genres".split("::"),
    sep="::",
    engine="python"
)

问题：怎样实现这样的统计，每个题材有多少部电影？

解决思路：

将Genres按照分隔符|拆分
按Genres拆分成多行
统计每个Genres下的电影数目

2、将Genres字段拆分成列表

# 当前的Genres字段是字符串类型
type(df.iloc[0]["Genres"])

# 新增一列
df["Genre"] = df["Genres"].map(lambda x:x.split("|"))
# Genre的类型是列表
print(df["Genre"][0])
print(type(df["Genre"][0]))

3、使用explode将一行拆分成多行
语法：pandas.DataFrame.explode(column) 将dataframe的一个list-like的元素按行复制，index索引随之复制

df_new = df.explode("Genre")

4、实现拆分后的题材的统计

%matplotlib inline
df_new["Genre"].value_counts().plot.bar()

梦捷者

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
Pandas使用explode实现一行变多行统计（三十）

解决实际问题：一个字段包含多个值，怎样将这个值拆分成多行，然后实现统计比如：一个电影有多个分类、一个人有多个喜好，需要按分类、喜好做统计1、读取数据import pandas as pddf = pd.read_csv( "./datas/movielens-1m/movies.dat", header=None, names="MovieID::Title::Genres".split("::"), sep="::", engine="python")
复制链接

扫一扫