【机器学习-贷款用户逾期情况分析2】2.特征工程

最新推荐文章于 2024-07-17 21:36:49 发布

被月亮晒黑_

最新推荐文章于 2024-07-17 21:36:49 发布

阅读量870

点赞数 1

分类专栏：算法实践机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_40314507/article/details/86691080

版权

2.0 任务说明

特征选择：分别用IV值和随机森林进行特征选择。再用【算法实践】中的7个模型（逻辑回归、SVM、决策树、随机森林、GBDT、XGBoost和LightGBM），进行模型评估。

2.1 特征选择

特征选择( Feature Selection )也称特征子集选择( Feature Subset Selection , FSS )，或属性选择( Attribute Selection )。是指从已有的M个特征(Feature)中选择N个特征使得系统的特定指标最优化，是从原始特征中选择出一些最有效特征以降低数据集维度的过程,是提高学习算法性能的一个重要手段。

2.1.1 IV值进行特征选择

(1)IV值含义

IV是什么？全称是Information Value，中文意思是信息价值，或者信息量。

那它有什么内在含义呢？变量的预测能力。且通常来讲，变量的IV值越高，则该变量的预测能力越强

这就对选取哪些x进行建模，起到了关键的作用了，但是IV也有其限制的范围。

首先、模型必须是有监督模型（即有y标签变量），其次、y标签必须是二分类(即y只有两类y1,y2)

常见的IV取值范围代表意思如下：

若IV在（-∞，0.02]区间，视为无预测力变量

若IV在（0.02，0.1]区间，视为较弱预测力变量

若IV在（0.1，+∞）区间，视为预测力可以，而实际应用中，也是保留IV值大于0.1的变量进行筛选。

（2）IV值的计算

在了解IV计算过程之前，必须明白另一个概念"WOE"

WOE的全称是“Weight of Evidence”，即证据权重。计算公式为：

简单的理解就是该分箱坏样本(即b)占比除以好样本(即g)占比的自然对数。（如果对分箱有疑问的同学，可以先简单理解成如果x=0、1、2、3,那么x=0就是一箱，x=1、2、3也是各为一箱）

而从公式也可以体现出WOE的含义：当前分箱中“坏样本占所有坏样本的比例”和“好样本占所有好样本的比例”的差异。很容易可以看出，当差异越大，则该分箱响应坏样本的的可能性就越大；当差异越小，则该分箱响应坏样本的可能性就越小。

IV值的计算公式：

最低0.47元/天解锁文章

被月亮晒黑_

博客等级

码龄8年

118
原创

54
点赞

363
收藏

93
粉丝

关注

私信

热门文章

分类专栏

图像处理 10篇
Linux操作系统 7篇
python 17篇
机器学习 19篇
深度学习 39篇
caffe 13篇
tensorflow 10篇
LeetCode 23篇
C++ 19篇
控制 1篇
CS231n 6篇
算法实践 7篇
MySQL 5篇
数据科学 11篇
PyTorch 7篇
爬虫 6篇
目标检测 3篇

最新评论

【PyTorch 深度学习】5.PyTorch实现L1，L2正则化以及Dropout
zhuᴗu: 请问reg_loss参数应用在代码的什么地方呢？
【PyTorch 深度学习】5.PyTorch实现L1，L2正则化以及Dropout
sakularia: model = module_net(8,10,1).to(device)，8,10,1，是什么意思
【PyTorch 深度学习】5.PyTorch实现L1，L2正则化以及Dropout
Tisfy: 写文章不易，继续加油
【caffe 深度学习】13.deeplabv2操作
qq_42331243: 请问，准备数据这款儿，我执行convert_label.py文件的时候， (base) liuzd@Ti-Two:/data6/liuzd/deeplab/DL_dataset/VOC12_orig$ python convert_labels.py /data6/liuzd/deeplab/DL_dataset/VOC12_orig/SegmentationClass /data6/liuzd/deeplab/DL_dataset/VOC12_orig/ImageSets/Segmentation/trainval.txt /data6/liuzd/deeplab/DL_dataset/VOC12_orig/SegmentationClass_1D/ Traceback (most recent call last): File "convert_labels.py", line 62, in <module> main() File "convert_labels.py", line 28, in main img_name = os.path.join(path, img_base_name) + ext File "/home/liuzd/anaconda3/lib/python3.8/posixpath.py", line 90, in join genericpath._check_arg_types('join', a, *p) File "/home/liuzd/anaconda3/lib/python3.8/genericpath.py", line 155, in _check_arg_types raise TypeError("Can't mix strings and bytes in path components") from None TypeError: Can't mix strings and bytes in path components 这咋解决呀，博主捞捞我！！！！！！
【caffe 深度学习】9.迁移学习和Snapshot使用
咪咕班克斯: 牛

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。