![](https://img-blog.csdnimg.cn/20201014180756754.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
pandas/numpy数据处理爬坑
冷风的云
这个作者很懒,什么都没留下…
展开
-
如何使用python进行正确的四舍五入?这个坑有点大
本文主要分享基于python的数据分析三方库pandas,numpy的一次爬坑经历,发现并分析了python语言对于浮点数精度处理不准确的问题,并在最后给出合理的解决方案。如果你也在用python处理数据,建议看一下,毕竟0.1的误差都可能造成比较大的影响文章目录01 发现问题02 开始排查03 分析问题04 解决问题01 发现问题早上到了公司,领导发了几个文件过来,说这两天测试环境跑出来的数据,与实际情况有所出入,看看哪出的问题,尽快解决···02 开始排查先对比数据,发现并不是所有的数.原创 2020-08-21 14:42:19 · 1602 阅读 · 1 评论 -
基于python,pandas,pymysql 将数据批量高效写入mysql数据库(保证可以用的那种)
编程界的小学生一枚,主要使用语言为python,平时要和数据打交道,还有erp系统相关以及web开发等等,有时间就会分享下工作中遇到的那点事,包括那些让我焦虑的问题,包括我自己总结的小技巧,那些程序优化重构的实现,还有可能包括程序性能优化,以及源码的阅读等等···在荆棘的道路上逆风前行本文基于python, pandas, pymysql实现了向数据库中批量插入数据的脚本,一方面提供给被网上很多瞎转载的答案给坑蒙了的人(因为我也是),一方面自己也做个笔记,以后方便查阅文章目录需求原因版本库信息逻辑梳.原创 2020-08-11 16:13:27 · 7634 阅读 · 1 评论 -
一行代码的调优让我的程序性能提高了至少50%
本文主要涉及python基于pandas的大数据项目的一次调优,调优的过程很难受,调优的结果很开心,运行时间从22分钟降低到了7分钟左右。涉及多线程,代码重构,以及语法调优。时间紧张的话,结论在最后。文章目录问题的发现以及初步调优发现问题分析问题解决问题总结问题的发现以及初步调优由于项目的技术架构是基于aws的lambda服务进行无限并发处理,而每个lambda进程要求程序整体运行不能超过15分钟。但是通过测试后发现,竟然跑完要22分钟左右,肯定不行,所以就开始了如下调优的过程。先看下项目的优.原创 2020-08-09 00:06:57 · 211 阅读 · 0 评论 -
使用pandas一些技巧归纳(4)
文章目录grouby聚合对df不同的列进行不同求值对数据集合按照自定义分类进行聚合操作对分类标准的多个数据合并到一行将分组后的数据列保持原列名sort_values相关同时对几列数据依次排序操作补充(split,列数据类型转换)split操作列属性转换出错grouby聚合对df不同的列进行不同求值有时候面临的需求是对不同列分别作不同的聚合操作,比如聚合之后的数据,某一列需要做求和,某一列需要做取中值,这种情况需要用agg函数,可以通过传入元组(列名,要聚合的函数名)的方式重命名聚合之后列的名字#原创 2020-06-26 22:33:17 · 228 阅读 · 0 评论 -
使用pandas遇到的一些坑及解决方案(3)
本次内容以及坑主要涉及四个方面:apply函数使用,groupby分组取每组前几个值,df遍历,筛选集合,分享一下,如果有可以优化的地方,不吝赐教,谢谢。文章目录apply函数需求描述示例代码取反筛选集合需求描述示例代码取分组后每组的前几个数据需求描述示例代码遍历操作iterrows解释及坑示例代码values()示例代码apply函数需求描述个人觉得dataframe数据处理用apply函数都很好用,不论是lambda函数还是自定义函数,但是需要注意如果用lambda函数,那么条件要用()括起原创 2020-06-21 01:11:02 · 1364 阅读 · 0 评论 -
使用pandas遇到的一些坑及解决方案(2)
文章目录csv文件读和写读文件的坑不指定数据类型的坑指定数据类型报错的坑写文件的坑需求描述代码实现np.round(0.5) 等于0的坑需求描述及坑解决方案聚合需要把某一列的值以“,”汇总代码实现csv文件读和写读文件的坑建议读取csv文件,最好带有列的类型属性,pandas遇到这种"0100"的,会自动变更为int类型,如果后面需要做匹配神马的就容易出现问题不指定数据类型的坑import pandas as pd# 并不是所有的列都需要指定属性,一般来讲字符串类型的最好指定一下, 时间类型需要原创 2020-06-12 23:41:43 · 1567 阅读 · 0 评论 -
使用pandas遇到的一些坑及解决方案(1)
文章目录nan值定位的正确方法df.isnull()真没啥用df[df.isnull().values==True] 很舒服日期加减问题的正确写法分组聚合不改变列名生成新表最近在频繁的使用pandas处理数据问题,所以把遇到的问题慢慢整理一下,给自己个交代,另外如果有处理方法可以优化的地方,也希望小伙伴们可以指出来,谢谢。nan值定位的正确方法df.isnull()真没啥用df.isnull()这个命令,是将数据集的nan值显示为1,不为nan值的显示为0说实话,df.isnull() 在原创 2020-06-10 00:51:18 · 4003 阅读 · 1 评论