Python机器学习:for循环定义批量探索字段的方法

前面几期介绍了isnull()找缺失值,value_counts()统计字段内容的频次,但特征工程字段很多,一个个地看太麻烦了,能不能用for循环把方法封装起来 批量查看字段呢?

代码如下:

def exploreData(x):
    for i in x.columns:
        print("字段名:",i)
        print("缺失值个数:",x[i].isnull().sum())
        print("字段值与频数:")
        print(x[i].value_counts())
        print("-----------------------------------------------------------")

代码讲解:

def后面是方法名,这里用驼峰命名法命名为exploreData,当然也可以依自己喜好命名为F(x)、fre(x)·····

columes表示列标签,是表示DataFrame的列标签的属性名,是内置的。表名.columes就能把一个二维表的列标签全打印出来了,如:

x是变量名其一,在这里表示数据集,也就是二维表DataFrame;

i是变量名其二,在这里表示数据集里面的字段。调用一个表里面的字段一般是这样写的:表名['字段名'],或者这样:表名.字段名。所以这里用两个变量来表示,就是这样:x[i];

for循环里面写 i in x.columes 就能把所有字段都遍历一遍;

用到的函数只有几个,一个isnull()和sum()的组合使用:先用isnull()把空值转为布尔值True,再用sum()把为1的加和起来;另一个是value_counts()计算每一个值出现的次数,也就是频数。

下面看运行结果:

 可以发现这份数据用问号?来表示空值了,我们需要记一下要处理的字段,对空值进一步处理。 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值