利用Python和Oracle进行变量分析(求解覆盖率、类别数、分位数等)

(作者:陈玓玏)

在建模过程中,如果你要选择一个变量进入模型,必然需要确保这个变量是可用的。那怎么样算可用呢?单从变量的角度来说,覆盖率不能过低,也就是缺失值不能过多;变量的分布范围合理,也就是说不会有过多异常值。

那么这些功能用Python和Oracle都是很容易实现的,下面看代码吧。

1、Python求解覆盖率

如果直接用isnull函数做判断,那么会得到一个和Series等长的布尔型变量组成的Series对象,而通过.values取值后并判断取值是否为真,就能够过滤掉该列缺失的值,从而得到缺失的比例。

data['missing_rate'] = data[data[colname].isnull().values==True].shape[0]/data.shape[0]
data['exist_rate'] = data[data[colname].isnull().values==False].shape[0]/data.shape[0]

2、Oracle求解覆盖率

Oracle中过滤数据通常用where,但是用where就会用到比较多子查询,而子查询可能会不太方便核查问题,也要多写不少代码,我常用的替代方法就是case when,在做统计时尤其好用,这里就是通过case when来将列为空时设为1,然后求和,以此来统计到底有多少缺失值。

select sum(case when colname is null then 1 else 0 end)/count(colname) as missing_rate 
from tablename;
select (count(colname)-count(case when colname is null then 1 else 0 end))/count(colname) 
as exist_rate 
from tablename;

3、Python求解类别数

通过unique函数能够得到一列的所有唯一值,对这个列表求长度,即可得到类别数了。

data['cat_cnt'] = len(data[colname].unique())

4、Oracle求解类别数

在网上看到过有人说count(distinct colname)这种用法在数据量大的时候特别慢,不过我一直用着还好,数据量大的时候也还好,所以看个人吧。

 select count(distinct colname) from tablename

5、Python求解分位数

下面这两种方法都挺好用。有以下两个区别:

1)用第一种方法可以求任意分位数,比如十分位、五分位这些,想求什么就能求什么,而第二种只能求四分位数;
2)用第一种方法貌似一次只能求一列的分位数,因为是numpy里面的函数,而numpy的数据结构就是这么简单的了。第二种可能一次求得多列的四分位数,还挺方便的。

看自己的需要了。

data['25_per'] = np.percentile(list(data[colname]),25)
result = data[colname].describe()

6、Oracle求解分位数

Oracle求分位数应当是比Python要麻烦一点,这里我没有试过代码,只是分享一点思路,就是可以用row_number给排序后的数据一个rank,然后计算出分位数应该在哪个rank之前,用where过滤出这个rank对应的值就好了。

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值