数据分析:Pandas自定义describe方法,一行代码查看数据集各列的描述

Pandas提供describe方法,可以查看各列的计数、均值、最大最小值等,功能强大。下面介绍一种可根据自身要求,添加各个特征的其他描述的方法。

df.describe().T.assign(missing_rate = df.apply(lambda x : (len(x)-x.count())/float(len(x))))

T为转置,assign为添加的列。 

上述代码实现了,展示各列的计数、均值、最大最小值、标准差和第一、二、三个四分位值,同时增加了缺失率的计算。

 

 countmeanstdmin25%50%75%max
SeriousDlqin2yrs150000.00.0668400.2497460.00.0000000.0000000.0000001.00.000000
RevolvingUtilizationOfUnsecuredLines150000.06.048438249.7553710.00.0298670.1541810.55904650708.00.000000
age150000.052.29520714.7718660.041.00000052.00000063.000000109.00.000000
NumberOfTime30-59DaysPastDueNotWorse150000.00.4210334.1927810.00.0000000.0000000.00000098.00.000000
DebtRatio150000.0353.0050762037.8185230.00.1750740.3665080.868254329664.00.000000
MonthlyIncome120269.06670.22123714384.6742150.03400.0000005400.0000008249.0000003008750.00.198207
NumberOfOpenCreditLinesAndLoans150000.08.4527605.1459510.05.0000008.00000011.00000058.00.000000
NumberOfTimes90DaysLate150000.00.2659734.1693040.00.0000000.0000000.00000098.00.000000
NumberRealEstateLoansOrLines150000.01.0182401.1297710.00.0000001.0000002.00000054.00.000000
NumberOfTime60-89DaysPastDueNotWorse150000.00.2403874.1551790.00.0000000.0000000.00000098.00.000000
NumberOfDependents146076.00.7572221.1150860.00.0000000.0000001.00000020.00.026160

最后一列为自定义的缺失率(复制的列名没显示出来)

  • 5
    点赞
  • 10
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值