toad -评分卡模型

Toad简介

一个可以用作数据探查、特征选择和评分卡模型建模的python工具包。
参考:

https://www.cnblogs.com/cgmcoding/p/14026520.html
https://www.freesion.com/article/2550417274/

1.EDA数据探查

toad.detect() # 高阶版 describe功能
以datafountain中非法集资案例中的数据为例,base_info.csv

import toad
import pandas
base = pd.read_csv(filename)
toad.detect(base)

在这里插入图片描述包含的字段:‘type’, ‘size’, ‘missing’, ‘unique’, ‘mean_or_top1’, ‘std_or_top2’,
‘min_or_top3’, ‘1%_or_top4’, ‘10%_or_top5’, ‘50%_or_bottom5’,
‘75%_or_bottom4’, ‘90%_or_bottom3’, ‘99%_or_bottom2’, ‘max_or_bottom1’

其中,后面几个指标(即 ‘mean_or_top1’, ‘std_or_top2’,‘min_or_top3’, ‘1%_or_top4’, ‘10%_or_top5’, ‘50%_or_bottom5’,‘75%_or_bottom4’, ‘90%_or_bottom3’, ‘99%_or_bottom2’, ‘max_or_bottom1’),分两种情况,如果该列特征为object类型,则该指标则为value_counts()的作用,统计特征的计数,按照频率显示top5和bottom5。如果该列特征为int或者float,则该指标为mean、std、min、1%…的数据分布指标。

2.特征选择

toad.selection.select()
toad提供了一个特征筛选的函数,可以根据特征的缺失比例、iv值、膨胀系数

参考:
https://blog.csdn.net/qq_41341757/article/details/111312591

1) 筛选的指标包括

  • 覆盖度 ,即缺失率和零值率。
  • 区分度 ,计算特征的IV值。
  • 相关性,计算特征的correlation。

说明:
IV值(information value)
案例:计算IV值:
1: 计算每个标签下好人的概率 = p_good = good / good_总计
2:计算每个标签下坏人的概率 = p_bad = bad / bad_总计
3: 计算好人概率和坏人概率的差值 = p_good - p_bad
4: 计算ln(p_good/p_bad)的值。
5: 计算 IV = ln(p_good/p_bad) * (p_good - p_bad)
在这里插入图片描述

IV值<0.02,区分度小,0.02<IV<0.5之间区分度大,IV值>0.5表示可以单独作为一个规则条件,而不用建模。

empty:
包括缺失率和零值率

相关性
相关性大的特征,如果可以用另外的特征集合通过线性计算得到,只保留其中对IV值较大的特征。

2) 参数包括

  • empty:缺失率上限
  • iv:信息量
  • corr:相关系数大于阈值,则删除IV小的特征
  • return_drop:返回删除特征
  • exclude:不参与筛选的变量名

3)举例
example:删除base_info中,iv值小于0.05,空值率大于50%,相关性大于0.8的特征。

selected_data, drop_list = toad.selection.select(train, target="label", empty=0.5, corr=0.7, iv=0.05, return_drop=True)

selected_data为保留下来的dataframe
在这里插入图片描述
drop_list为删除的特征:
在这里插入图片描述

  • 1
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
"subprocess-exited-with-error"是一个错误消息,表示在运行某个命令时,其中一个或多个子进程发生了错误导致整个命令无法完成。这种错误通常与操作系统或Python版本相关。根据引用和引用的信息,这个错误可能与pip安装第三方模块lxml时出现。具体原因可能是lxml的构建过程中发生了错误。引用中提到了"Failed building wheel for lxml"这个错误消息,可能是构建轮子的过程中出现了问题。可能是由于你的操作系统或Python版本不兼容所导致的。你可以尝试升级Python版本或者安装lxml的依赖库来解决这个问题。 对于"toad"这个词,根据提供的引用内容,没有找到与之相关的信息。请提供更多上下文或详细描述以便我能够更好地理解并回答你的问题。<span class="em">1</span><span class="em">2</span><span class="em">3</span> #### 引用[.reference_title] - *1* [pip安装软件包报错: error subprocess-exited-with-error问题记录](https://blog.csdn.net/weixin_53742691/article/details/130931339)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v93^chatsearchT3_2"}}] [.reference_item style="max-width: 50%"] - *2* *3* [已解决error: subprocess-exited-with-error](https://blog.csdn.net/yuan2019035055/article/details/128709583)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v93^chatsearchT3_2"}}] [.reference_item style="max-width: 50%"] [ .reference_list ]

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值