机器学习每周挑战——信用卡申请用户数据分析

本文分析了一数据集中用户的各种特征与信用卡申请结果的关系,探讨了特征选择、模型建立及处理数据不平衡的方法。通过随机森林、支持向量机和XGBoost模型,研究了性别、收入、职业等因素对申请影响,并展示了模型性能和特征重要性。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

数据集的截图

# 字段    说明
# Ind_ID    客户ID
# Gender    性别信息
# Car_owner 是否有车
# Propert_owner 是否有房产
# Children  子女数量
# Annual_income 年收入
# Type_Income   收入类型
# Education 教育程度
# Marital_status    婚姻状况
# Housing_type  居住方式
# Birthday_count    以当前日期为0,往前倒数天数,-1代表昨天
# Employed_days 雇佣开始日期。以当前日期为0,往前倒数天数。正值意味着个人目前未就业。
# Mobile_phone  手机号码
# Work_phone    工作电话
# Phone 电话号码
# EMAIL_ID  电子邮箱
# Type_Occupation   职业
# Family_Members    家庭人数
# Label 0表示申请通过,1表示申请拒绝

# 知道了数据集的情况,我们来看问题
# 问题描述
# 用户特征与信用卡申请结果之间存在哪些主要的相关性或规律?这些相关性反映出什么问题?
#
# 从申请用户的整体特征来看,银行信用卡业务可能存在哪些风险或改进空间?数据反映出的问题对银行信用卡业务有哪些启示?
#
# 根据数据集反映的客户画像和信用卡申请情况,如果你是该银行的风控或市场部门负责人,你会提出哪些战略思考或建议?
#
# 参考分析角度
# 用户画像分析
#
# 分析不同人口统计学特征(如性别、年龄、婚姻状况等)对信用卡申请的影响和规律
# 分析不同社会经济特征(如收入、职业、教育程度等)与申请结果的关系
# 特征选取和模型建立
#
# 评估不同特征对预测信用卡申请结果的重要性,进行特征筛选
# 建立信用卡申请结果预测模型,评估模型性能
# 申请结果分析
#
# 分析不同用户群的申请通过率情况,找到可能的问题原因
# 对申请被拒绝的用户进行细分,寻找拒绝的主要原因

# 知道问题后,我们先进行数据预处理
print(data.info()) # 有缺失值
print(data.isnull().sum() / len(data))  # 可以看出有的列缺失值有点多

# GENDER               7   Annual_income       23   Birthday_count      22     Type_Occupation    488
# GENDER             0.004522   Annual_income      0.014858    Birthday_count     0.014212   Type_Occupation    0.315245
# Type_Occupation    0.315245 这一列缺失值数据占比有点高了,但是,这一列是职业,跟我们的业务相关性较高,我觉得应该将缺失值单独分为一个属性
# 其他的列的缺失值较少,woe们可以填充,也可以删除,我觉得对于信用卡这种模型精度要求较严的,我们就删除,填充的值不是很准确,可能对模型造成一定的影响
# 观察数据,我们可以发现,ID,电话号,邮箱这种特征对我们来说没有用 ,生日记数我也感觉没用
data['Type_Occupation'] = data['Type_Occupation'].fillna("无")
背景描述 本项目采用了UCI数据仓库,这是一个自1970年代中期以来广泛使用的公认资源。它在学术界享有盛誉,因其数据集涵盖了从生物信息学到社会科学等多个领域的真实世界问题,确保了研究成果的实用性和相关性。我们可以通过 Python 中的 ucimlrepo 库直接访问这些数据集,这样显著提高了数据获取的效率,简化了预处理流程,从而让我们能够迅速投入到实证分析中去。 而且还有还很重要的一点:该数据集的普及性和熟悉度为我们的研究提供了一个共同的基准,使得方法论的通用性和比较性得到加强。同时,数据的真实性和可复刻性也为项目带来了额外的价值。我们的分析不仅可以由同行学者验证,而且还可以促进知识的积累,为未来的科学探索提供基石。这种方法论和数据来源的选择可以确保你的项目或者算法能够在数据科学界得到广泛的认可和应用。 数据说明 这份数据是 uci 数据仓库中的 Default of credit card clients 数据集。读取方法可以参考我的相关项目。 该数据集包含 30,000 名客户及其在台湾一家银行的信用卡交易数据。除了客户的静态特征外,该数据集还包含某年4月至9月的信用卡账单支付历史,以及客户信用卡的余额限制。目标是客户是否会在接下来的一个月,即该年10月拖欠信用卡付款。 ID:信用卡客户ID号 LIMIT_BAL:以新台币计算的信贷金额(包括个人和家庭/补充信贷)/ 信用卡限额 SEX: 性别 (1代表男性,2代表女性) EDUCATION:受 教育程度(1=研究生, 2=大学, 3=高中, 4=其他 5=未知, 6=未知) MARRIAGE:婚姻状况(1=已婚,2=单身,3=其他) AGE:年龄 X1:信用额度,包括其个人和家庭补充信用 X2:性别(1=male;2=female) X3:教育(1=研究生,2=大学,3=高中,4=其他) X4:婚姻状况(1=已婚,2=单身,3=其他) X5:年龄,age X6-X11:过去六个月的还款情况。X6-X11为9-4月的还款情况。其中,-1,代表按时还款;1,代表延时一个月还款;2,代表延时两个月还款.......依次类推,XN=n,代表延时n个月还款, X12-X17:过去六个月的账单数额情况。X12-X17为9-4月账单数额情况 X18-X23:过去六个月的还款数额情况。 X18-X23为9-4月还款数额情况 Y:目标属性,客户下个月还款违约情况(1=逾期,0=未逾期) 通常会用于分类模型,应用场景十分广泛。尤其适用于金融机构在风险评估和信贷审批过程中,以判断客户是否有资格获得其他贷款产品,例如汽车贷款。通过包含的23个输入变量,如信用额度、性别、教育程度等,以及目标变量,即客户的还款违约情况,研究者能够对信用风险进行准确评估。这些细致的数据为研究者提供了理解和预测客户行为的全面视角。
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值