Pandas-数据的合并和分组聚合

最新推荐文章于 2022-11-24 17:14:49 发布

charlesAI770

最新推荐文章于 2022-11-24 17:14:49 发布

阅读量181

点赞数

分类专栏：数据分析文章标签： pandas python

本文链接：https://blog.csdn.net/charlesAI/article/details/119513389

版权

本文介绍了Pandas库在数据处理中的关键操作，包括字符串离散化、数据合并（join和merge）以及数据分组聚合。通过实例展示了如何进行数据的索引操作，如Series和DataFrame的复合索引，并提供了如何使用project进行数据聚合。最后，文章给出了使用matplotlib分析全球星巴克店铺分布和书籍数据的案例。

摘要由CSDN通过智能技术生成

字符串离散化

思路:重新构造一个全为0的数组，列名为分类，如果某一条数据中分类出现过，就让0变为1

import pandas as pd  
from matplotlib import pyplot as plt  
import numpy as np  
  
file_path = "/Users/Downloads/AI_Documents/14100_HM数据科学库课件/DataAnalysis-master/day05/code/IMDB-Movie-Data.csv"  
df = pd.read_csv(file_path)  
print(df["Genre"].head(3))  
  
#统计分类的列表  
temp_list = df["Genre"].str.split(",").tolist()  #[[],[],[]]列表嵌套列表  
print(temp_list)  
genre_list = list(set([i for j in temp_list for i in j]))  
print(genre_list)  
  
#构造全为0的数组  
zeros_df = pd.DataFrame(np.zeros((df.shape[0],len(genre_list))),columns=genre_list)  
print(zeros_df)  
  
#给每个电影出现分类的位置赋值1  
for i in range(df.shape[0]):  
	zeros_df.loc[i,temp_list[i]] = 1  
  
print(zeros_df.head(3))  
  
#统计每个分类的电影的数量和  
genre_count = zeros_df.sum(axis=0)  
print(genre_count)  
  
#排序  
genre_count = genre_count.sort_values()  
_x = genre_count.index  
_y = genre_count.values  
  
#画图  
plt.figure(figsize=(20,8),dpi=80)  
plt.bar(range(len(_x)),_y,width=0.4,color="orange")  
plt.xticks(range(len(_x)),_x)  
plt.show()

数据合并

join

将行索引相同的数据合并到一起
df1.join(df2) #以df1为准

最低0.47元/天解锁文章

charlesAI770

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Pandas-数据的合并和分组聚合

字符串离散化思路:重新构造一个全为0的数组，列名为分类，如果某一条数据中分类出现过，就让0变为1import pandas as pd from matplotlib import pyplot as plt import numpy as np file_path = "/Users/Downloads/AI_Documents/14100_HM数据科学库课件/DataAnalysis-master/day05/code/IMDB-Movie-Data.csv" df = p
复制链接

扫一扫