![](https://img-blog.csdnimg.cn/2019092715111047.png?x-oss-process=image/resize,m_fixed,h_224,w_224)
pandas
pandas
_illusion_
知乎主页:https://www.zhihu.com/people/illusions-29/posts
展开
-
pandas使用小记
最近,发现了个pandas十分有用的技巧,尤其是在你内存不足、数据量太大、耗时过长的情况下:假设df_groupby是我们按照df某个字段进行分组后的结果,我们现在要统计其中某个字段“name”的个数df_groupby.apply(lambda x: len(x['name']))df_groupby['name'].count()如上所示,这俩计数语句都很简单,看起来没差,但在你数据量足够大的情况下,这两句可能就是爆不爆内存的天壤之别了。第一句是常规写法,占内存更大、速度更慢;因而建议第原创 2021-09-29 15:08:29 · 143 阅读 · 0 评论 -
pandas to_excel如何突破65535的长度限制?
问题描述有时候,我们对数据表做了groupby、set_index设置多级目录后,就会想把DataFrame的格式导出成Excel格式,而非csv格式。因为导出成csv格式,可能多级index的格式就会消失,当你要输出个漂亮的格式给人看的时候,csv显然是不如excel好看的。不过,excel格式还有个蛋疼的缺点,那就是单个excel文件输出长度65535的限制。假如你的excel文件超长了,你大概会得到以下报错:~/anaconda3/lib/python3.6/site-packages/原创 2021-08-27 11:33:00 · 4298 阅读 · 4 评论 -
用pandas或numpy处理数据中的空值(np.isnan()/pd.isnull())
最近在做数据处理的时候,遇到个让我欲仙欲死的问题,那就是数据中的空值该如何获取。我的目的本来是获取数据中的所有非零且非空值,然后再计算获得到的所有数据计算均值,再用均值把0和空值填上。这个操作让我意识到了i is None/np.isnan(i)/i.isnull()之间的差别,再此做简单介绍:1.关于np.nan:先明确一个问题,即空值的产生只有np.nan()一种方法。# n...原创 2018-09-16 02:19:50 · 65646 阅读 · 11 评论 -
日常小知识点积累:DataFrame.reset_index、pandas数据修改、matplotlib子图大小占比
1.pandas数据的index: 当我们对pandas。DataFrame进行切片、融合操作后,DataFrame原有的index不会自动重新排序,这时候我们可以用pandas.DataFrame.reset_index方法让它重新排序:DataFrame.reset_index(level=None, drop=False, inplace=False, col_leve...原创 2018-09-16 02:44:38 · 1360 阅读 · 0 评论 -
日常小知识点积累:python list列表推导式、pandas.get_dummies、pandas.DataFrame.dtypes
1.列表推导式基本形式: result = [item for item in squence <if conditions>] 举例:在以下球员姓名名单中找出名字中含有字母‘a’的球员roster = ['Irving','Hayward','Horford','Tatum','Jaylen','Rozier','Smart']contains_a = [i fo...原创 2018-09-14 10:00:31 · 1301 阅读 · 0 评论 -
pandas日常使用笔记:iterrows()、mode()需要注意的东西
1.iterrows()、iteritems():此方法用于对DataFrame进行行或者列的迭代获取 经过此方法所得到的DataFrame行或者列,你永远都不要去对它进行改动。因为迭代所得只是这个数据对象的复制本,你对它进行何种改动都无济于事 2.mode():此方法用于获得该列“众数”,即本特征下取值最多的那个特征值(因而可能不止一个结果) 如果你想用mode()函数的计算结...原创 2018-09-28 14:10:39 · 10539 阅读 · 2 评论 -
pandas DataFrame取数据以及pandas groupby用法一览
DataFrame数据取法:https://fishc.com.cn/thread-79821-1-1.html groupby用法:https://blog.csdn.net/Leonis_v/article/details/51832916 随用随查~原创 2018-12-29 17:22:16 · 2635 阅读 · 0 评论 -
和index有关的pandas切片问题
我们使用pandas常常会涉及到切片操作,特别是一维的Series,我常常觉得它和Python list无甚区别,所以经常就用list的切片方法去切片Series。然而结果呢?有时候会成功,有时候就会报恼人的KeyError。次数多了之后,我发现这样一个问题:当Series或者DataFrame的index为int类型时,你对它进行切片,切片的数字或者区段,pandas会自动理解为inde...原创 2018-12-25 15:51:02 · 1729 阅读 · 1 评论 -
pandas多级目录的层次索引
随用随查——https://blog.csdn.net/Darkman_EX/article/details/80723802原创 2019-03-31 15:32:36 · 1496 阅读 · 0 评论