信用卡逾期项目初探（特征处理和机器学习）

最新推荐文章于 2024-06-23 09:00:00 发布

啥都不懂的菇凉

最新推荐文章于 2024-06-23 09:00:00 发布

阅读量939

点赞数 1

文章标签：机器学习 python

本文链接：https://blog.csdn.net/weixin_42957905/article/details/106216502

版权

本文探讨了信用卡逾期项目的特征处理，选择了标准化方法，并通过二八划分创建了训练集和测试集。初步使用逻辑回归模型，发现召回率较低，接着尝试了KNN和朴素贝叶斯，发现朴素贝叶斯在召回率和F1值上有提升，表明其可能更适合此问题。建议进一步尝试其他分类模型或调整参数以优化模型效果。

摘要由CSDN通过智能技术生成

信用卡逾期项目初探（特征处理和机器学习）

接信用卡逾期项目初探（数据清洗与特征选择）的下文，是继续进行特征处理和模型建立。

三、特征处理
由于我们选的六种特征，有连续变量和离散性变量，额度的范围是0-100000，还款状态是-2到9的离散型变量，不同维度的量化，会对后面建立模型，因此我们需要进行相关的特征处理，使得其在统一量化的标准下。
当然，特征处理有很多方法可选择，比如是最小最大规范化、归一化、标准化、独热、对指化、标签化等等，如何选择是一个问题。以下是我的一些整理，有点乱。

# 对指化：指数：差距小，并不能明显  对数：差距大，缩放到较小
# np.log()
# np.exp()

# 离散化
# 连续变量分为几段（bins） 克服数据缺陷、某些算法要求、非线数据映射
# 三种离散: 等频、等距、自因变量优化
# 分箱：首先要排序 深度（数的个数）与宽度（数的区间）
lst = [6,8,10,15,16,24,25,40,67]
# 等深分箱
pd.qcut(lst,q=3)
pd.qcut(lst,q=3,labels = ["low","medium","high"])
# 等宽分箱
pd.cut(lst,bins=3,labels = ["low","medium","high"])

# 归一化（）
# x=x-xmin /xmax-xmin  将数据纳入0-1
# 标准化 均值为0，标准差为1
from sklearn.preprocessing