逻辑回归的优点及构建模型的思路

最新推荐文章于 2024-05-22 14:03:04 发布

bingbangx

最新推荐文章于 2024-05-22 14:03:04 发布

阅读量3.2k

点赞数

分类专栏： sklearn

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/bingbangx/article/details/107454136

版权

sklearn 专栏收录该内容

34 篇文章 2 订阅

订阅专栏

逻辑回归返回的数字，即便本质上不是概率，却也有着概率的各种性质，可以被当成是概率来看待和使用。

主要应用在金融领域

逻辑的优点：

1、逻辑回归对线性关系的拟合效果好；

2、逻辑回归计算快；

3、逻辑回归返回的分类结果不是固定的0，1，而是以小数形式呈现的类概率数字；

4、抗噪能力强

逻辑回归在sklearn.linear_model下面

以制作评分卡来梳理一下构建模型的思路：

1.导库，获取数据

2.探索数据与数据预处理

2.1 去除重复值

2.2 填补缺失值

2.3 描述性统计处理异常值

2.4 样本不均衡：可以采用上采样来平衡样本

2.5 分训练集和测试集

3.分箱

（基本步骤：

1 ）我们首先把连续型变量分成一组数量较多的分类型变量，比如，将几万个样本分成 100 组，或 50 组

2 ）确保每一组中都要包含两种类别的样本，否则 IV 值会无法计算

3 ）我们对相邻的组进行卡方检验，卡方检验的 P 值很大的组进行合并，直到数据中的组数小于设定的 N 箱为止

4 ）我们让一个特征分别分成 [2,3,4.....20] 箱，观察每个分箱个数下的 IV 值如何变化，找出最适合的分箱个数

5 ）分箱完毕后，我们计算每个箱的 WOE 值， bad%，观察分箱效果.

这些步骤都完成后，我们可以对各个特征都进行分箱，然后观察每个特征的 IV 值，以此来挑选特征。）

3.1 等频分箱

3.2 定义WOE和IV函数

3.3 卡方检验，合并箱体，画出IV曲线

3.4 用最佳分箱个数分箱，并验证分箱结果

3.5 将选取最佳分箱个数的过程包装成函数

3.6 对所有特征进行分箱选择

4. 计算各箱的WOE并映射到数据中

5. 建模与模型验证

6. 制作评分卡

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
逻辑回归的优点及构建模型的思路

逻辑回归返回的数字，即便本质上不是概率，却也有着概率的各种性质，可以被当成是概率来看待和使用。主要应用在金融领域逻辑的优点：1、逻辑回归对线性关系的拟合效果好；2、逻辑回归计算快；3、逻辑回归返回的分类结果不是固定的0，1，而是以小数形式呈现的类概率数字；4、抗噪能力强逻辑回归在sklearn.linear_model下面...
复制链接

扫一扫

专栏目录

bingbangx CSDN认证博客专家 CSDN认证企业博客

码龄6年

142: 原创

3万+: 周排名

1万+: 总排名

103万+: 访问

: 等级

4612: 积分

190: 粉丝

599: 获赞

78: 评论

3437: 收藏

私信

关注

热门文章

分类专栏

Python 113篇
excel 18篇
数据库 29篇
语言积累 2篇
matplotlib 1篇
hive 5篇
Tableau 3篇
sklearn 34篇
SqlServer 5篇
SQL 13篇
统计学 20篇
R 5篇
jdk
Docker 2篇
随机森林 4篇
决策树 6篇

最新评论

查找anaconda路径的方法
qq_46597167: 就能找到文件位置了么
TypeError: first argument must be an iterable of pandas objects, you passed an object of type “DataF
2401_84277571: # 剔除为0的数据 pd_data = pd_data.rename(columns={pd_data.columns[0]: "共同出现次数"}) name = [index_val] * len(pd_data) pd_data['共同出现词语_1'] = name pd_data = pd_data.reset_index() pd_data = pd_data.rename(columns={pd_data.columns[0]: "共同出现词语_2"}) df_common_matrix = df_common_matrix.append(pd_data, ignore_index=True) df_common_matrix = df_common_matrix[['共同出现词语_1', '共同出现词语_2', '共同出现次数']] df_common_matrix.sort_values(by=['共同出现次数'], ascending=False, inplace=True) print(df_common_matrix) df_common_matrix.to_csv('./共词矩阵变形.csv', index=False, encoding='utf-8_sig') 大佬这个里边的append 怎么换成concat啊
查找anaconda路径的方法
2301_80048705: 你可以使用anaconda prompt，cmd不行的
查找anaconda路径的方法
松大是码农: 这不对呀，conda不是内部或外部命令，也不是可运行的程序或批处理文件
工具包已经下载但是安装时出现“Jupyter command jupyter-contrib not found.”
Tengfei Wang: 手动进入目录，然后输入cmd即可

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。