pandas库以及列表等相关语法

最新推荐文章于 2021-03-21 16:27:56 发布

Super__Tiger

最新推荐文章于 2021-03-21 16:27:56 发布

阅读量245

点赞数 1

分类专栏： python

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/acceptedday/article/details/97555754

版权

python 专栏收录该内容

34 篇文章 6 订阅

订阅专栏

pandas库以及列表等相关语法

文章目录

pandas库以及列表等相关语法

（1）pandas读取文件基本操作：

pd.read_csv(“文件路径”，engine=“python”)。

type()和dtypes，分别表示文件的格式dataframe和文件数据类型的格式。

(*)head()可打印前五行数据，tail()采用打印最后几行，format()采用格式化输出。

在这里插入图片描述

（2）columns和loc[]分别对列和行的索引及取值操作：

columns用于表示数据类型的索引。
在这里插入图片描述

(**)loc[]用于针对行的索引，切片索引，单条件索引。

切片索引:例如loc[3],loc[3:7],loc[3,5,34]。

单条件索引:例如loc[xx[“Click”]>1000]。

在这里插入图片描述

（**）columns列索引，也可以用于取出列；

列的直接索引；

注：不可以直接用xx[“Shown”,“Rank”]!

在这里插入图片描述

列的关键词索引；

在这里插入图片描述

（**）列和行的取出操作：

在这里插入图片描述

(3)dataframe的算术逻辑运算，常用运算函数max(),sort_values(),pd.isnull(),len(),mean()的用法：

(*)dataframe用于算术逻辑运算；

在这里插入图片描述

(*)max();

在这里插入图片描述

(*)sort_values()用于排序；

采用.sort_values(“Table”,inplace=True/False,ascending=True/False)的结构；
在这里插入图片描述

（**）pd.isnull()用于查缺失值的位置，采用bool索引；

注：bool值的索引:当False时即跳过，True对数据进行操作；

在这里插入图片描述

(4)针对存在缺失值，对数据进行求和以及平均值的计算：

算法1：

第一步：采用aa=pd.isnull(列)；

第二步：采用双索引bb=xx【列】【aa=False】;

第三步：对bb求和及取平均值；

在这里插入图片描述

算法2：

(*)采用mean()和sum();

在这里插入图片描述

（5）统计某项指标：

（***）采用list和dict进行统计指标：

第一步：建立设定搜索值list

第二步：建立理想统计值dict

第三步：以设定搜索值list为索引取出符合项，将符合项的指定项的值取出进行sum或mean()等操作后放入dict字典

第四步：dict打印统计结果
在这里插入图片描述

（***）采用pivot_table()进行统计指标：

采用xx.pivot_table(index=“参考项”,values=“指标项”,aggfunc=numpy.mean/sum)
在这里插入图片描述

（6）loc[]定位和reset_index()索引重置：

(*)loc[]定位;

在这里插入图片描述

(*)reset_index(),采用xx.reset_index(drop=True/False);

在这里插入图片描述

(7)apply()自定义函数：

(*)缺失项统计：

第一步：采用pd.isnull(column)生成bool值series[]=bb

第二步：将column[bb]==null保存下来并返回len(null)
在这里插入图片描述

(*)年龄划分：

第一步：将Age取出作为series[]=bb

第二步：对bb进行分类处理，采用if-leif-else结构返回值

在这里插入图片描述

（8）series（索引+数据项）的创建和索引：

（*）series的创建方式：

方式1：

采用bb=xx[“Table”]结构；

在这里插入图片描述

方式2：

采用bb=Series(aa.values,index=cc.values)结构；
在这里插入图片描述

（*）series的索引方式：

采用bb[[索引项1，索引项2]]寻找特定项的值；
在这里插入图片描述

（9）series的索引排序和值排序：

（*）sort_index()用于索引排序；
在这里插入图片描述

(*)sort_values采用值排序;

在这里插入图片描述

(10)series的筛选：

（*）series筛选的步骤：

第一步：对series直接进行算术逻辑运算得到bool索引项序列

第二步：对索引项序列进行条件的映射series[bool索引序列&bool索引序列b]得到理想的筛选序列

在这里插入图片描述

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
打赏
0
评论
pandas库以及列表等相关语法

-Python_day03-（1）pandas读取文件基本操作：pd.read_csv(“文件路径”，engine=“python”)。type()和dtypes，分别表示文件的格式dataframe和文件数据类型的格式。(*)head()可打印前五行数据，tail()采用打印最后几行，format()采用格式化输出。（2）columns和loc[]分别对列和行的索引及取值操作：co...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

Super__Tiger 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。