import pandas as pd
1.数据结构转换
1.1stack数据堆叠
df_fl=pd.read_excel(r'../shu/肥料含量表.xlsx')
df_fl
#构建一个提前肥料明细的函数
def get_fl_detail(id):
return df_fl.stack()[id-1]#stack 表示数据堆叠
get_fl_detail(20)
1.2.unstack数据拆堆
df_sale=pd.read_excel(r'../shuju/超市销售数据.xlsx')
df_sale.groupby(['性别','商品类别'])['支付费用(美元)'].sun().unstack()
2.数据类型转换
指的是数值型变量和类别型变量之间的转换
2.1.哑变量处理
类别型变量-->数值型变量
#代码略
2.2.数据分箱
数值型变量-->类别型变量(区间)
#案例:统计不同平均速度区间下车辆的行驶时长
df_car = pd.read_excel('../dataset/新能源汽车行驶里程表.xlsx')
df_car
#平均速度的分布情况
df_car['平均速度'].sist()
#对平均速度的进行数据分箱
df_car['平均速度区间']=pd.cut(df_car['平均速度'],bins=[20,40,60,80,100])
#对区间进行分组统计
df_car.groupby('平均速度区间')['行驶时长'].mean()
运行结果