Pytho 笔记：Pandas函数pivot_table和groupby默认删除含有空值的行

htuhxf

于 2019-03-15 19:17:46 发布

阅读量6.3k

点赞数 2

分类专栏： Python 笔记文章标签： pandas pivot 删除空 table

Python 笔记专栏收录该内容

23 篇文章

订阅专栏

这是一个早在2013年就被发现的一个小问题：即pandas.pivot_table()的index里边含有空值的，空值的对应透视数据会被忽略。

使用pd.fillna()

import pandas
import numpy

a = [['a', 'b', 12, 12, 12], ['a', numpy.nan, 12.3, 233., 12], ['b', 'a', 123.23, 123, 1], ['a', 'b', 1, 1, 1.]]

df = pandas.DataFrame(a, columns=['a', 'b', 'c', 'd', 'e'])
df_pivot = df.pivot_table(index=['a', 'b'], values=['c', 'd', 'e'], aggfunc=sum)

print(df)
# df如下
   a    b       c    d   e
0  a    b   12.00   12  12
1  a  NaN   12.30  233  12
2  b    a  123.23  123   1
3  a    b    1.00    1   1

print(df_pivot)
# df_pivot如下
          c    d   e
a b                 
a b   13.00   13  13  # [a NaN 12.30 233 12] 默认删除不计
b a  123.23  123   1

解决方法：使用df.fillna(‘string’)把空值出填充个字符串就OK了。例如（原文链接点击这里）

In [31]: df2 = df.copy()
In [32]: df2['dummy'] = np.nan
In [33]: df2['b'] = df2['b'].fillna('dummy')
In [34]: df2
Out[34]: 
       a      b       c    d   e  dummy
    0  a      b   12.00   12  12    NaN
    1  a  dummy   12.30  233  12    NaN
    2  b      a  123.23  123   1    NaN
    3  a      b    1.00    1   1    NaN

# 此处，之前被删除的那一行的值又回来了
In [35]: df2.pivot_table(index=['a', 'b'], values=['c', 'd', 'e'], aggfunc=sum)
Out[35]: 
               c      d     e
a b                         
a b       13.00   13.0  13.0
  dummy   12.30  233.0  12.0
b a      123.23  123.0   1.0

In [36]: df2.pivot_table(index=['a', 'b'], values=['c', 'd', 'e'], aggfunc=sum).replace('dummy',np.nan)
Out[36]: 
               c      d     e
a b                         
a b       13.00    13.0   13.0
  nan     12.30   233.0   12.0
b a      123.23   123.0    1.0

博客等级

码龄7年

39
原创

874
点赞

3759
收藏

228
粉丝

关注

私信

分类专栏

最新评论

Python：入门 - 数据预处理 - 正则表达式之通配符
CSDN-Ada助手: 哇, 你的文章质量真不错，值得学习！不过这么高质量的文章, 还值得进一步提升, 以下的改进点你可以参考下: (1)增加条理清晰的目录；(2)提升标题与正文的相关性。
调参简例：SARIMA模型_手工调参过程
小白在呐喊: 这个函数参数没对应上，n_test和cfg_list搞反了
python笔记：df.plot()常见的坐标轴的操作，及正常显示负号
CSDN-Ada助手: 哇, 你的文章质量真不错，值得学习！不过这么高质量的文章, 还值得进一步提升, 以下的改进点你可以参考下: (1)增加除了各种控件外，文章正文的字数；(2)提升标题与正文的相关性。
python 可视化：subplots的title和tick labels和tick操作案例要点
CSDN-Ada助手: 哇, 你的文章质量真不错，值得学习！不过这么高质量的文章, 还值得进一步提升, 以下的改进点你可以参考下: (1)使用更多的站内链接；(2)增加除了各种控件外，文章正文的字数；(3)提升标题与正文的相关性。
sklearn笔记：StratifiedKFold和StratifiedShuffleSplit的区别？
TravelLight92: 有个很奇怪的地方，比如做一个信用卡欺诈的数据问题，样本比例非常不平衡，用两种划分方式对比：train_test_split(shuffle=1,test_size=0.2,seed=1,str=y)得到一组score，用StratifiedKfold(test_size=0.2,seed=1,n_split=5)得到5组score； precision还好说，五组里面有超过一次划分的，虽然总体均值还是低于一次划分，还能接受！但召回，train_test_split比较高，StratifiedKfold的五组比train_test_split都要低，甚至有点情况下，5组里面没有一个高于train_test_split的，所以我怀疑这StratifiedKfold，但是查证，StratifiedKfold的确只在划分前洗一次牌，所有数据都会用到，就很离谱！

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。