利用Python和Oracle进行变量分析（求解覆盖率、类别数、分位数等）

最新推荐文章于 2023-03-14 16:45:40 发布

小白白白又白cdllp

最新推荐文章于 2023-03-14 16:45:40 发布

阅读量839

点赞数 1

分类专栏：数据挖掘数据库文章标签：数据库变量分析 Oracle

本文链接：https://blog.csdn.net/weixin_39750084/article/details/81367363

版权

数据挖掘同时被 2 个专栏收录

33 篇文章 1 订阅

订阅专栏

数据库

25 篇文章 1 订阅

订阅专栏

（作者：陈玓玏）

在建模过程中，如果你要选择一个变量进入模型，必然需要确保这个变量是可用的。那怎么样算可用呢？单从变量的角度来说，覆盖率不能过低，也就是缺失值不能过多；变量的分布范围合理，也就是说不会有过多异常值。

那么这些功能用Python和Oracle都是很容易实现的，下面看代码吧。

1、Python求解覆盖率

如果直接用isnull函数做判断，那么会得到一个和Series等长的布尔型变量组成的Series对象，而通过.values取值后并判断取值是否为真，就能够过滤掉该列缺失的值，从而得到缺失的比例。

data['missing_rate'] = data[data[colname].isnull().values==True].shape[0]/data.shape[0]
data['exist_rate'] = data[data[colname].isnull().values==False].shape[0]/data.shape[0]

2、Oracle求解覆盖率

Oracle中过滤数据通常用where，但是用where就会用到比较多子查询，而子查询可能会不太方便核查问题，也要多写不少代码，我常用的替代方法就是case when，在做统计时尤其好用，这里就是通过case when来将列为空时设为1，然后求和，以此来统计到底有多少缺失值。

select sum(case when colname is null then 1 else 0 end)/count(colname) as missing_rate 
from tablename;
select (count(colname)-count(case when colname is null then 1 else 0 end))/count(colname) 
as exist_rate 
from tablename;

3、Python求解类别数

通过unique函数能够得到一列的所有唯一值，对这个列表求长度，即可得到类别数了。

data['cat_cnt'] = len(data[colname].unique())

4、Oracle求解类别数

在网上看到过有人说count(distinct colname)这种用法在数据量大的时候特别慢，不过我一直用着还好，数据量大的时候也还好，所以看个人吧。

 select count(distinct colname) from tablename

5、Python求解分位数

下面这两种方法都挺好用。有以下两个区别：

1）用第一种方法可以求任意分位数，比如十分位、五分位这些，想求什么就能求什么，而第二种只能求四分位数；
2）用第一种方法貌似一次只能求一列的分位数，因为是numpy里面的函数，而numpy的数据结构就是这么简单的了。第二种可能一次求得多列的四分位数，还挺方便的。

看自己的需要了。

data['25_per'] = np.percentile(list(data[colname]),25)
result = data[colname].describe()

6、Oracle求解分位数

Oracle求分位数应当是比Python要麻烦一点，这里我没有试过代码，只是分享一点思路，就是可以用row_number给排序后的数据一个rank，然后计算出分位数应该在哪个rank之前，用where过滤出这个rank对应的值就好了。

小白白白又白cdllp

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录