pandas
Charles.zhang
朝闻道,夕死可矣。路漫漫其修远兮,吾将上下而求索。
展开
-
针对pandas merge之后数据类型发生改变
pandas的表合并方式具体这里我就不讲了,这里百度有很多。里面有一个 merge 合并之后数据类型改变的问题,百度之后也没有得出很好的结果。这里会出现一种情况:两个整形的数据经过合并之后变成了浮点型。这个变化在小数据量时区别可能不是很大,只是相对比较麻烦一点。大量数据的话涉及到数据之间的交互(运算)会消耗大量时间。当然你要是说手动把他再强转回来,就当我没说。为什么会出现这种情况呢?经过一系列测试之后,发现问题在于合并方向,有人说right能够避免这个问题,left会出现这种问题,那就是转载 2021-03-12 11:42:47 · 1956 阅读 · 0 评论 -
Pandas:细说groupby和aggregate、transform、apply以及filter
这一个知识点感觉是目前接触的Pandas中最难的了,故写篇博客记录一下,这一节有点函数式编程的味道~(一)groupby先说一下goupby,顾名思义,就是分组的意思,给你一个DataFrame,以某一列为标准,分成若干个“子DataFrame”,这些个“子DataFram”由两部分组成,一个是索引index,即类别,一个是“子DataFrame”的内容,数据类型也是DataFrame,不过行数少点罢了,说白了,就是把那一列相同类别的所有行单独提出来,凑成一个DataFrame,该列有N种类别就有N转载 2020-09-27 16:18:27 · 962 阅读 · 1 评论 -
python中分组排序--groupby(),rank()
1.python 中分组统计1.1按性别统计出年龄最大,最小,平均值 import pandas as pd df = pd.read_excel(r'./data.xlsx') print(df) ages = df.groupby(['gender'])['age'] ages_min = ages.min() ages_max = ages.max() ages_mean = ages.mean() prin.转载 2020-09-23 17:30:34 · 8996 阅读 · 0 评论 -
pandas性能提升之避免对小数据量使用pandas内置函数
pandas本身就是面向数据分析的,而且是面向大数据分析的,所以其内置函数本身在设计上相比于一些python原生的操作就会繁杂一些,这也是为了功能性的考虑。所以,这就导致了其内置函数就像高速火车,而python的原生操作就像超跑,超跑在速度上是具有优势的,但是在功能性上是比不上高速火车的。所以,理论上,如果可以用python的原生操作实现,那么总是可以更快的,毕竟内置函数很多也是用原生操作封装好...转载 2020-03-20 16:06:40 · 267 阅读 · 0 评论 -
pandas之apply和for loop之间的比较和权衡
首先,文章开头就需要强调的是:对于大的数据量,能不用loop就尽量不用loop,无论是for loop还是apply,尽量用内置函数实现。在pandas里,我们经常听到一句话就是尽量减少for loop的时候,尽量用apply去替代,但是这句话是有语境的,并不一定的正确的,实际上,在pandas里,对于for loop和apply之间的使用,是一个需要权衡的东西,并非...转载 2020-03-20 16:03:46 · 1716 阅读 · 0 评论 -
pandas获取groupby分组里最大值所在的行方法
pandas获取groupby分组里最大值所在的行方法如下面这个DataFrame,按照Mt分组,取出Count最大的那行? 1 2 3 4 import pandas as pd df = pd.DataFrame({'Sp':['a','b','c','d','e','f'], 'Mt':['s1', 's1', 's2'...转载 2019-12-11 17:14:35 · 5883 阅读 · 1 评论 -
如何检查Pandas DataFrame中的任何值是否为NaN
如何检查Pandas DataFrame中的任何值是否为NaN本文来自codeday,作者 codeday在PythonPandas中,检查DataFrame是否具有一个(或多个)NaN值的最佳方法是什么?我知道函数pd.isnan,但是这会为每个元素返回一个布尔数据框架.This post就在这里也没有完全回答我的问题.最佳答案jwilner的回应是现货.我正在探索是...转载 2019-11-01 10:05:09 · 4668 阅读 · 0 评论 -
关于使用merge合并两个data_frame出现大量的空值的情况
cidtotal_salesc_namec1n101101.07520675.03NaNNaNNaN1110201.05920098.53NaNNaNNaN2110202.011080813.26NaNNaN...转载 2019-10-16 15:24:35 · 2800 阅读 · 0 评论 -
Numpy和Pandas关闭科学计数法显示
Numpyimport numpy as npnp.set_printoptions(suppress=True, threshold=np.nan)12其中,suppress=True 表示取消科学记数法,threshold=np.nan 完整输出(没有省略号)Pandaspd.set_option('float_format', lambda x: '%.3f' % x)——...转载 2019-09-27 18:11:55 · 4290 阅读 · 0 评论 -
Pandas里面常用的一些数据分析函数总结
import pandas as pdimport numpy as nppandas 有两个主要的数据结构:Series 和 DataFrame;Series 是一个一维数组对象 ,它包含一组索引和一组数据,可以把它理解为一组带索引的数组。DataFrame 是一个表格型的数据结构。它提供有序的列和不同类型的列值。df:Pandas DataFrame对象s: Pandas Se...转载 2019-09-27 16:36:56 · 203 阅读 · 0 评论 -
用这几个方法提高pandas运行速度
♚作者:xiaoyu博客:https://zhuanlan.zhihu.com/pypcfx介绍:一个半路转行的数据挖掘工程师征稿启事 | Python中文社区有奖征文▍前言当大家谈到数据分析时,提及最多的语言就是Python和SQL。Python之所以适合数据分析,是因为它有很多第三方强大的库来协助,pandas就是其中之一。pandas的文档中是这样描述的:...转载 2019-09-27 10:30:22 · 862 阅读 · 0 评论