信用卡逾期项目初探(特征处理和机器学习)

本文探讨了信用卡逾期项目的特征处理,选择了标准化方法,并通过二八划分创建了训练集和测试集。初步使用逻辑回归模型,发现召回率较低,接着尝试了KNN和朴素贝叶斯,发现朴素贝叶斯在召回率和F1值上有提升,表明其可能更适合此问题。建议进一步尝试其他分类模型或调整参数以优化模型效果。
摘要由CSDN通过智能技术生成

信用卡逾期项目初探(特征处理和机器学习)

接信用卡逾期项目初探(数据清洗与特征选择)的下文,是继续进行特征处理和模型建立。

三、特征处理
由于我们选的六种特征,有连续变量和离散性变量,额度的范围是0-100000,还款状态是-2到9的离散型变量,不同维度的量化,会对后面建立模型,因此我们需要进行相关的特征处理,使得其在统一量化的标准下。
当然,特征处理有很多方法可选择,比如是最小最大规范化、归一化、标准化、独热、对指化、标签化等等,如何选择是一个问题。以下是我的一些整理,有点乱。

# 对指化:指数:差距小,并不能明显  对数:差距大,缩放到较小
# np.log()
# np.exp()

# 离散化
# 连续变量分为几段(bins) 克服数据缺陷、某些算法要求、非线数据映射
# 三种离散: 等频、等距、自因变量优化
# 分箱:首先要排序 深度(数的个数)与宽度(数的区间)
lst = [6,8,10,15,16,24,25,40,67]
# 等深分箱
pd.qcut(lst,q=3)
pd.qcut(lst,q=3,labels = ["low","medium","high"])
# 等宽分箱
pd.cut(lst,bins=3,labels = ["low","medium","high"])

# 归一化()
# x=x-xmin /xmax-xmin  将数据纳入0-1
# 标准化 均值为0,标准差为1
from sklearn.preprocessing
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值