python自动分箱_基于python 等频分箱qcut问题的解决

在python 较新的版本中,pandas.qcut()这个函数中是有duplicates这个参数的,它能解决在等频分箱中遇到的重复值过多引起报错的问题;

在比较旧版本的python中,提供一下解决办法:

import pandas as pd

def pct_rank_qcut(series, n):

'''

series:要分箱的列

n:箱子数

'''

edages = pd.series([i/n for i in range(n)] # 转换成百分比

func = lambda x: (edages >= x).argmax() #函数:(edages >= x)返回fasle/true列表中第一次出现true的索引值

return series.rank(pct=1).astype(float).apply(func) #series.rank(pct=1)每个值对应的百分位数,最终返回对应的组数;rank()函数传入的数据类型若为object,结果会有问题,因此进行了astype

补充拓展:Python数据离散化:等宽及等频

在处理数据时,我们往往需要将连续性变量进行离散化,最常用的方式便是等宽离散化,等频离散化,在此处我们讨论离散化的概念,只给出在python中的实现以供参考

1. 等宽离散化

使用pandas中的cut()函数进行划分

import numpy as np

import pandas as pd

# Discretization: Equal Width #

# Datas: Sample * Feature

def Discretization_EqualWidth(K, Datas, FeatureNumber):

DisDatas = np.zeros_like(Datas)

for i in range(FeatureNumber):

DisOneFeature = pd.cut(Datas[:, i], K, labels=range(1, K+1))

DisDatas[:, i] = DisOneFeature

return DisDatas

2. 等频离散化

pandas中有qcut()可以使用,但是边界易出现重复值,如果为了删除重复值设置 duplicates=‘drop',则易出现于分片个数少于指定个数的问题,因此在此处不使用qcut()

import numpy as np

import pandas as pd

# Discretization: Equal Frequency #

# vector: single feature

def Rank_qcut(vector, K):

quantile = np.array([float(i) / K for i in range(K + 1)]) # Quantile: K+1 values

funBounder = lambda x: (quantile >= x).argmax()

return vector.rank(pct=True).apply(funBounder)

# Discretization: Equal Frequency #

# Datas: Sample * Feature

def Discretization_EqualFrequency(K, Datas, FeatureNumber):

DisDatas = np.zeros_like(Datas)

w = [float(i) / K for i in range(K + 1)]

for i in range(FeatureNumber):

DisOneFeature = Rank_qcut(pd.Series(Datas[:, i]), K)

#print(DisOneFeature)

DisDatas[:, i] = DisOneFeature

return DisDatas

以上这篇基于python 等频分箱qcut问题的解决就是小编分享给大家的全部内容了,希望能给大家一个参考,也希望大家多多支持我们。

本文标题: 基于python 等频分箱qcut问题的解决

本文地址: http://www.cppcns.com/jiaoben/python/302009.html

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
python中,可以使用等频分箱方法来进行风控建模中的连续变量分箱等频分箱是一种常见的自动分箱方法,它将数据按照相同数量的样本分配到每个箱子中。这种方法可以在保持数据分布的同时减小异常值的影响。 要在python中实现等频分箱,你可以使用pandas库中的cut()函数。cut()函数可将连续变量划分为多个等频的区间,然后可以将每个区间视为一个箱子。 下面是一个示例代码,展示了如何使用Python进行等频分箱: ```python import pandas as pd # 创建一个包含连续变量的DataFrame data = pd.DataFrame({'variable': [1, 2, 3, 4, 5,6, 7, 8, 9, 10}) # 使用cut函数进行等频分箱,将连续变量划分为3个箱子 data['bins'] = pd.cut(data['variable'], bins=3, labels=False) # 输出结果 print(data) ``` 运行上述代码,你将得到以下输出: ``` variable bins 0 1 0 1 2 0 2 3 1 3 4 1 4 5 2 5 6 2 6 7 2 7 8 2 8 9 2 9 10 2 ``` 在这个示例中,我们将连续变量划分为3个等频的箱子,通过cut()函数返回的结果可以看到每个变量对应的箱子标签。 请注意,这只是等频分箱的一种简单实现示例,实际应用中可能会根据具体情况进行调整和优化。另外,对于风控建模还有其他自动分箱方法,如等距分箱和基于决策树的分箱方法,你可以根据实际需求选择合适的方法。<span class="em">1</span><span class="em">2</span><span class="em">3</span> #### 引用[.reference_title] - *1* *2* *3* [风控ML[10] | 风控建模中的自动分箱的方法有哪些](https://blog.csdn.net/Pysamlam/article/details/122787425)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v93^chatsearchT3_2"}}] [.reference_item style="max-width: 100%"] [ .reference_list ]

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值