pandas库以及列表等相关语法
文章目录
(1)pandas读取文件基本操作:
pd.read_csv(“文件路径”,engine=“python”)。
type()和dtypes,分别表示文件的格式dataframe和文件数据类型的格式。
(*)head()可打印前五行数据,tail()采用打印最后几行,format()采用格式化输出。
(2)columns和loc[]分别对列和行的索引及取值操作:
columns用于表示数据类型的索引。
(**)loc[]用于针对行的索引,切片索引,单条件索引。
切片索引:例如loc[3],loc[3:7],loc[3,5,34]。
单条件索引:例如loc[xx[“Click”]>1000]。
(**)columns列索引,也可以用于取出列;
列的直接索引;
注:不可以直接用xx[“Shown”,“Rank”]!
列的关键词索引;
(**)列和行的取出操作:
(3)dataframe的算术逻辑运算,常用运算函数max(),sort_values(),pd.isnull(),len(),mean()的用法:
(*)dataframe用于算术逻辑运算;
(*)max();
(*)sort_values()用于排序;
采用.sort_values(“Table”,inplace=True/False,ascending=True/False)的结构;
(**)pd.isnull()用于查缺失值的位置,采用bool索引;
注:bool值的索引:当False时即跳过,True对数据进行操作;
(4)针对存在缺失值,对数据进行求和以及平均值的计算:
算法1:
第一步:采用aa=pd.isnull(列);
第二步:采用双索引bb=xx【列】【aa=False】;
第三步:对bb求和及取平均值;
算法2:
(*)采用mean()和sum();
(5)统计某项指标:
(***)采用list和dict进行统计指标:
第一步:建立设定搜索值list
第二步:建立理想统计值dict
第三步:以设定搜索值list为索引取出符合项,将符合项的指定项的值取出进行sum或mean()等操作后放入dict字典
第四步:dict打印统计结果
(***)采用pivot_table()进行统计指标:
采用xx.pivot_table(index=“参考项”,values=“指标项”,aggfunc=numpy.mean/sum)
(6)loc[]定位和reset_index()索引重置:
(*)loc[]定位;
(*)reset_index(),采用xx.reset_index(drop=True/False);
(7)apply()自定义函数:
(*)缺失项统计:
第一步:采用pd.isnull(column)生成bool值series[]=bb
第二步:将column[bb]==null保存下来并返回len(null)
(*)年龄划分:
第一步:将Age取出作为series[]=bb
第二步:对bb进行分类处理,采用if-leif-else结构返回值
(8)series(索引+数据项)的创建和索引:
(*)series的创建方式:
方式1:
采用bb=xx[“Table”]结构;
方式2:
采用bb=Series(aa.values,index=cc.values)结构;
(*)series的索引方式:
采用bb[[索引项1,索引项2]]寻找特定项的值;
(9)series的索引排序和值排序:
(*)sort_index()用于索引排序;
(*)sort_values采用值排序;
(10)series的筛选:
(*)series筛选的步骤:
第一步:对series直接进行算术逻辑运算得到bool索引项序列
第二步:对索引项序列进行条件的映射series[bool索引序列&bool索引序列b]得到理想的筛选序列