Pandas基本数据操作、排序、算术运算、逻辑运算

最新推荐文章于 2025-04-25 11:05:39 发布

strive_one

最新推荐文章于 2025-04-25 11:05:39 发布

阅读量1.3k

点赞数 3

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Learn_and/article/details/107665705

版权

索引操作：

为了更好的理解这些基本操作，我们将读取一个真实的股票数据。关于文件操作，后面介绍，这里只先用一下API

读取文件

在这里插入图片描述

删除一些列，让数据更简单些，再去做后面的操作：
data = data.drop([“ma5”, “ma10”, “ma20”, “v_ma5”, “v_ma10”, “v_ma20”], axis=1)
注意：不能直接进行数字索引。
Numpy当中我们已经讲过使用索引选取序列和切片选择，pandas也支持类似的操作，也可以直接使用列名、行名称，甚至组合使用。

直接使用行列索引(先列后行)：

获取“2018-02-27”这天的’close’的结果。
注意：必须先列后行。

结合loc或者iloc使用索引：

获取从“2018-02-27”到“2018-02-22”的open列的结果。

使用loc只能指定行列索引的名字。

在这里插入图片描述

总结：如果不使用loc关键字的话，需要先列后行，如果使用loc关键字的话，那就可以先行后列了。

获取前100天的数据的“open”列的结果：

使用iloc可以通过索引的下标去获取：

在这里插入图片描述

也可以使用切片：

获取行第1天到第4天的[“open”, “close”, “high”, “low”]这4个指标的结果：

在这里插入图片描述

总结：

基本数据操作
- 索引操作
  - 直接索引
    - 先列后行
  - 按名字索引
    - loc
  - 按数字索引
    - iloc
  - 组合索引
    - 数字、名字

赋值：

在这里插入图片描述

对DataFrame当中的close列进行重新赋值为1：

在这里插入图片描述

或是：

注意：都是修改原数据的

排序

排序有两种形式：

一种对内容进行排序；
一种对索引进行排序

对DataFrame类型的数据使用df.sort_values()对内容进行排序：

使用df.sort_values(key=,ascending=)对内容进行排序

单个键或者多个键进行排序，默认升序
ascending=False:降序
ascending=True:升序

按照涨跌幅大小进行降序排序：

在这里插入图片描述

按照涨跌幅大小进行升序排序：

在这里插入图片描述

默认是升序：

在这里插入图片描述

按照多个键进行排序：

在这里插入图片描述

先按着high排序，high值一样的，再按着p_change列进行排序，也就是第一个排序规则一样的内容，再按着第二个规则进行排序。

对DataFrame类型的数据使用df.sort_index对索引进行排序：

在这里插入图片描述

对Series类型的数据使用series.sort_values()对内容进行排序：

data = pd.read_csv("./data/stock_day.csv")
data = data.drop([“ma5”, “ma10”, “ma20”, “v_ma5”, “v_ma10”, “v_ma20”], axis=1)

提示：由于series排序时，只有一列，不需要排序字段参数。

在这里插入图片描述

默认是True：

对Series类型的数据使用series.sort_index()对索引进行排序：

在这里插入图片描述

默认是True：

总结：

sort_values对内容进行排序
sort_index对索引进行排序

算术运算：

准备数据：

data = pd.read_csv("./data/stock_day.csv")
data = data.drop([“ma5”, “ma10”, “ma20”, “v_ma5”, “v_ma10”, “v_ma20”], axis=1)

add(other)：比如进行数学运算加上具体的一个数字。

在这里插入图片描述

也可以：

sub(other)：比如进行数学运算减上具体的一个数字。

在这里插入图片描述

如果想要得到每天的涨跌大小？求出每天close-open价格差。

收盘价减去开盘价：

其它四则运算：

在这里插入图片描述

也可以对整个DataFrame进行运算：

在这里插入图片描述

逻辑运算：

在这里插入图片描述

逻辑运算符号：< > | &

筛选出p_change > 2的日期数据，返回逻辑结果：

在这里插入图片描述

将逻辑判断的结果作为筛选的依据：
完成多个逻辑判断：筛选出p_change > 2 并且 low > 15
需要带上括号：
将逻辑判断的结果作为筛选的依据：

逻辑运算函数：

query(查询字符串)：通过query使得刚才的过程更加方便简单。

在这里插入图片描述

isin(values)：比如判断‘turnover’是否为4.19, 2.39

可以指定值进行一个判断，从而进行筛选操作。

统计运算：

在这里插入图片描述

describe()：综合分析能够直接得出很多统计结果，count, mean(平均值), std(标准差), min(最小值), max(最大值)等。

min最小值，max最大值，mean平均值，median中位数，var方差，std标准差结果。
对于单个函数去进行统计的时候，坐标轴还是按照这些默认为"columns"(axis=0,default)，如果要对行"index"需要指定(axis=1)

注意：使用统计函数时0代表对列求结果，1代表对行求统计结果。

最大值：

在这里插入图片描述

或是：

最小值：

在这里插入图片描述

方差：

在这里插入图片描述

标准差：

在这里插入图片描述

平均值：

在这里插入图片描述

中位数：

中位数是将数据从小到大排列，在最中间的那个数为中位数。如果没有中间数，取中间两个数的平均值。
df = pd.DataFrame({“col1”: [2, 3, 4, 5, 4, 2], “col2”: [0, 1, 2, 3, 4, 2]})

最大值的索引：

在这里插入图片描述

注意：等于1一般是没有意义的。

最小值的索引：

在这里插入图片描述

累计统计函数：

在这里插入图片描述

下面的5.70是上面的2.68+3.02得到的，下面的8.12是5.70+2.42得到的，依此类推。
也可以下面这样：

自定义运算：

在这里插入图片描述

定义一个函数用于求出对每列进行最大值减去最小值：

在这里插入图片描述

上面就对每一列进行了一个按最大值减去最小值的一个操作。
或者：

总结：

在这里插入图片描述

博客等级

码龄6年

61
原创

39
点赞

219
收藏

26
粉丝

关注

私信

热门文章

分类专栏

展开全部收起

上一篇：: Pandas

下一篇：: Pandas画图、统计、累计、csv文件的读取，缺失值的处理

最新评论

Celery理解
北风之神c: 总结的很全面，写得赞，博主用心了。 celery对目录层级文件名称格式要求太高，只适合规划新的项目，对不规则文件夹套用难度高。所以新手使用celery很仔细的建立文件夹名字、文件夹层级、python文件名字。所以网上的celery博客教程虽然很多，但是并不能学会使用，因为要运行起来需要以下6个方面都掌握好，博客文字很难表达清楚或者没有写全面以下6个方面。 celery消费任务不执行或者报错NotRegistered，与很多方面有关系，如果要别人排错，至少要发以下6方面的截图，因为与一下6点关系很大。 1)整个项目目录结构, 2）@task入参 ,3）celery的配置，4）celery的配置 include ,5）cmd命令行启动参数 --queues= 的值,6）用户在启动cmd命令行时候，用户所在的文件夹。在不规范的文件夹路径下，使用celery难度很高，一般教程都没教。 [项目文件夹目录格式不规范下的celery使用演示](https://github.com/ydf0509/celery_demo) 。此国产分布式函数调度框架 funboost python万能通用函数加速器 https://funboost.readthedocs.io/zh-cn/latest/articles/c1.html ，从用法调用难度，用户所需代码量，超高并发性能，qps控频精确程度，支持的中间件类型，任务控制方式，稳定程度等20个方面全方位超过celery。发布性能提高1000%，消费性能提高2000%。 python万能分布式函数调度框架funboost支持python所有类型的并发模式和一切知名消息队列中间件，python函数加速器，只需要一行代码调度任意函数，框架包罗万象,万能编程功能宝典，一统编程思维，与业务不绑定，适用范围广。 pip install funboost
PyQt5与前端交互的三种方法
双双鸣玉珂: 感谢分享成功解决了困惑我多天的问题
在linux系统中使用fdfs_client-py客户端上传文件测试：
岁月ozr: 你好，非常感谢博主的分享。但是网盘文件没有了，能重新给一个链接吗，再次感谢博主
Pandas画图、统计、累计、csv文件的读取，缺失值的处理
壮壮的学习之苦: 你好可以问下怎么能统计出前30％的交易量啊
Celery任务队列
北风之神c: 写得赞，博主用心了，但主要还是celery太难了。 celery对目录层级文件名称格式要求太高，只适合规划新的项目，对不规则文件夹套用难度高。所以新手使用celery很仔细的建立文件夹名字、文件夹层级、python文件名字，所以网上的celery博客教程虽然很多，但是并不能学会使用，因为要运行起来需要以下6个方面都掌握好，博客文字很难表达清楚或者没有写全面以下6个方面。 celery消费任务不执行或者报错NotRegistered，与很多方面有关系，如果要别人排错，至少要发以下6方面的截图， 1) 整个项目目录结构,celery的目录结构和任务函数位置，有很大影响 2) @task入参 ,用户有没有主动设置装饰器的入参 name,设置了和没设置有很大不同，建议主动设置这个名字对函数名字和所处位置依赖减小 3) celery的配置，task_queues(在3.xx叫 CELERY_QUEUES )和task_routes (在3.xx叫 task_routes) 4) celery的配置 include （在3.xx叫 CELERY_INCLUDE）或者 imports (3.xx CELERY_IMPORTS) 或者 app.autodiscover_tasks的入参 5) cmd命令行启动参数 --queues= 的值 6) 用户在启动cmd命令行时候，用户所在的文件夹。在不规范的文件夹路径下，使用celery难度很高，一般教程都没教。 [项目文件夹目录格式不规范下的celery使用演示](https://github.com/ydf0509/celery_demo) 此国产分布式函数调度框架 https://function-scheduling-distributed-framework.readthedocs.io/zh_CN/latest/index.html ，从用法调用难度，用户所需代码量，超高并发性能，qps控频精确程度，支持的中间件类型，任务控制方式，稳定程度等19个方面全方位超过celery，任何方面都是有过之而无不及。

大家在看

最新文章

目录

展开全部

收起

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。