pandas数据的合并与分组

总结

在这里插入图片描述

分类统计

import pandas as pd
from matplotlib import pyplot as plt
import numpy as np
file_path = "./IMDB-Movie-Data.csv"

df = pd.read_csv(file_path)
print(df["Genre"].head(3))
#统计分类的列表
temp_list = df["Genre"].str.split(",").tolist()  #[[],[],[]]
print(temp_list)

genre_list = list(set([i for j in temp_list for i in j]))#展开并且去除重复的值
print(genre_list)

#构造全为0的数组
zeros_df = pd.DataFrame(np.zeros((df.shape[0],len(genre_list))),columns=genre_list)#行数是为0表示1行,列数len()

# print(zeros_df)

#给每个电影出现分类的位置赋值1
# for i in range(df.shape[0]):
#     #zeros_df.loc[0,["Sci-fi","Mucical"]] = 1
#     zeros_df.loc[i,temp_list[i]] = 1
#
# # print(zeros_df.head(3))
#
# #统计每个分类的电影的数量和
# genre_count = zeros_df.sum(axis=0)
# print(genre_count)
#
# #排序
# genre_count = genre_count.sort_values()
# _x = genre_count.index
# _y = genre_count.values
# #画图
# plt.figure(figsize=(20,8),dpi=80)
# plt.bar(range(len(_x)),_y,width=0.4,color="orange")
# plt.xticks(range(len(_x)),_x)
# plt.show()



import pandas as pd
from matplotlib import font_manager

my_font = font_manager.FontProperties(fname="/Library/Fonts/Songti.ttc")

file_path = "./starbucks_store_worldwide.csv"

df = pd.read_csv(file_path)
df = df[df["Country"]=="CN"]

#使用matplotlib呈现出店铺总数排名前10的国家
#准备数据
data1 = df.groupby(by="City").count()["Brand"].sort_values(ascending=False)[:25]

_x = data1.index
_y = data1.values

#画图
plt.figure(figsize=(20,12),dpi=80)

# plt.bar(range(len(_x)),_y,width=0.3,color="orange")
plt.barh(range(len(_x)),_y,height=0.3,color="orange")

plt.yticks(range(len(_x)),_x,fontproperties=my_font)

plt.show()

分组

import pandas as pd
from matplotlib import pyplot as plt


file_path = "./books.csv"

df = pd.read_csv(file_path)
# print(df.head(2))
#
# print(df.info())

data1 = df[pd.notnull(df["original_publication_year"])]
#
grouped = data1.groupby(by="original_publication_year").count()["title"]


#不同年份书的平均评分情况
#去除original_publication_year列中nan的行
data1 = df[pd.notnull(df["original_publication_year"])]

grouped = data1["average_rating"].groupby(by=data1["original_publication_year"]).mean()

# print(grouped)

_x = grouped.index
_y = grouped.values

#画图
plt.figure(figsize=(20,8),dpi=80)
plt.plot(range(len(_x)),_y)
print(len(_x))

plt.xticks(list(range(len(_x)))[::10],_x[::10].astype(int),rotation=45)
plt.show()

数据合并join/merge

在这里插入图片描述

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

索引和复合索引

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

series中取值

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

data frame 取值

在这里插入图片描述

在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值