信用卡违约客户的预测模型的选择(一)相关技术介绍

本文介绍了信用卡违约客户预测模型的选择,探讨了数据处理的标准化方法,强调了训练集与测试集划分的重要性。此外,提到了特征选择的策略如主成分分析和向前、向后选择法。最后,简述了线性回归、Logistic回归和SVM在分类中的应用,并提及了结果验证中的关键指标,如真正率和假正率。
摘要由CSDN通过智能技术生成
在进行建模之前,前期需要准备的包括数据提取、清洗,字段验证选择,分类模型的选择。
  • 变量处理方法

数据处理方法包括最小-最大规范化、标准化、特征化处理等,根据数据字段特点也可避免前期数据处理,直接借用挖掘函数计算。
最小-最大规范化,即归一化
proValue=(v-min(x))/(max(x)-min(x)),min(x),max(x)分别为v所在列的最小值和最大值。对数据进行归一化处理,即利用归一化处理将数据处理为0至1或-1至1之间的数据,归一化处理使得处理后的数据更加有利于预测准确性的提高,但是由于改变了数值的取值范围也增加了分类器的复杂度。

标准化处理,即规范化

proValue=(v-mean(x))/std(x),mean(x)为v所在列的均值,std(x)为v值所在列的标准差,经过标准化处理将x序列转化为n(0,1)正态分布,由于受离散值得影响,均值mean(x)有时使用序列中位数median(x)替代。

在数据处理与训练数据集和测试数据集的划分优先级上,应首先进行数据集的划分。例如,如果对某数据集进行归一化,再按照比例进行测试集和训练集的划分,则两个数据集容易存在相关性,不利于对通过训练得到的权重进行检验,无法保证训练和测试的独立性。

  • 变量筛选方法

特征选择

包括主成分分析和多因子分析。用于对多变量的降维,通过降维后将相关性强的变量组合为多类,代表一个因子或主成分。通过低维数据的分析来获得相应的高维数据特性,从而达到简化分析、获取数据有效特征以及可视化数据的目标。

向前选择法

首先增加一个变量,计算整个模型的F值和P值。继续增加变量观察模型F值和P值的变化,当增加后P值减小则保持该变量,当增加后P值增大则删除该变量。该方法较使用于线性分析、logisitic分析,通过衡量模型的预测值与实际值之间的误差变化,衡量模型的优劣,而误差的变化直接反应在P值的变化上。

向后选择法

从模型设计的全部变量开始,逐步剔除变量,观察模型的F值和P值,当P值小于显著性水平,则删除,否则保留。其中显著性水平一般取值在0.1左右,越小则模型越严格。

在实际的变量筛选中,一般还会涉及经验判断和相关性分析,根据客观事实和对事物的经验分析,选择重要变量,删除无关变量,可节省时间成本。一般在前期变量筛选之前会对变量之间进行相关性及同质性分析,对强相关变量进行组合处理。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值