Pandas使用过的方法

最新推荐文章于 2024-10-06 07:39:55 发布

宇智波.望

最新推荐文章于 2024-10-06 07:39:55 发布

阅读量426

点赞数 1

文章标签： python 数据挖掘数据分析

本文链接：https://blog.csdn.net/Xiao_cai_gun/article/details/122300004

版权

导入依赖，读取数据

import pandas as pd
df = pd.read_excel(r"D:\数据1\望仔.xlsx",header=0,index_col=0)
df

数据预处理

#数据预处理
#可以发现，多出了第一列，pandas自动加上了行号。解决:给read_excel加上这么个参数，index_col=0
#另第一行作为列名
#pandas读取表格的时候，经常把Excel表的列名也读取为数据。解决方法是把header设置为0而不是None
#原数据第一行为空，要将header的值改为1
df = pd.read_excel(r'C:/Users/hp/Desktop/数据.xlsx',header=1,names=None)
df

import pandas as pd
df_55 = df.groupby(["商品代号", "所属季度"], as_index=False).sum()
# 上面 as_index=False 重要，不把关键词作为索引
da = pd.pivot(df_55, index="商品代号", columns="所属季度")
da

import pandas as pd
# pd.set_option('display.float_format',lambda x:'%.2f' % x)#显示两位
df = pd.read_excel(r'C:/Users/hp/Desktop/泰迪/380平台－数据源.xlsx')
df.columns

保存处理的表

df3.to_excel(r'D:\表.xlsx')

#原数据第一列为空，去除
df.isnull()
df_new = df.dropna(axis=1,how='all', thresh=None, subset=None,inplace=False)
df_new

#从总销售额来判断（柱形图）
#df_3 = df[['销售额（万元）','销售点类型']].groupby(df['销售点类型']).mean().reset_index()
df_3 = df.groupby(by='销售点类型').agg({'销售额（万元）':sum}).reset_index()
df_3

读取csv、txt

df = pd.read_csv(r'F:\王者荣耀比赛数据.txt', names=["比赛编号","玩家编号",
"英雄名字-类别",
"玩家性别",
"玩家年龄",
"玩家地区",
"对局结果",
"对局开始时间",
"对局结束时间",
"对局时长",
"玩家评分",
"击败数",
"阵亡数",
"助攻数",
"金牌/银牌",
"MVP",
"禁用1",
"禁用2",
"禁用3",
"禁用4",
"禁用5",
"禁用6",
"平台"
], sep="\t",index_col=None,header=None)# 获取日期数据
df

排序

df_top.sort_values("count",inplace=True,ascending=False)

#5、分别统计不同的“刺客”类型英雄的平均击败英雄数量【柱状图】
#统计
df_all= df.groupby('英雄名字-类别')['击败数'].agg(['mean']).reset_index()
df_all

dfff = df_all[df_all['英雄名字-类别'].apply(lambda x:True if x[-2:] == '刺客' else False)==True]
dfff.shape[0]
dfff