信用卡违约客户的预测模型的选择(一）相关技术介绍

最新推荐文章于 2024-08-13 12:29:14 发布

jesuswalks

最新推荐文章于 2024-08-13 12:29:14 发布

阅读量7.9k

点赞数 3

文章标签：数据处理分类模型模型结果验证

本文链接：https://blog.csdn.net/ksh007/article/details/79271973

版权

本文介绍了信用卡违约客户预测模型的选择，探讨了数据处理的标准化方法，强调了训练集与测试集划分的重要性。此外，提到了特征选择的策略如主成分分析和向前、向后选择法。最后，简述了线性回归、Logistic回归和SVM在分类中的应用，并提及了结果验证中的关键指标，如真正率和假正率。

摘要由CSDN通过智能技术生成

在进行建模之前，前期需要准备的包括数据提取、清洗，字段验证选择，分类模型的选择。

变量处理方法

数据处理方法包括最小-最大规范化、标准化、特征化处理等，根据数据字段特点也可避免前期数据处理，直接借用挖掘函数计算。

最小-最大规范化，即归一化

proValue=(v-min(x))/(max(x)-min(x))，min(x),max(x)分别为v所在列的最小值和最大值。对数据进行归一化处理，即利用归一化处理将数据处理为0至1或-1至1之间的数据，归一化处理使得处理后的数据更加有利于预测准确性的提高，但是由于改变了数值的取值范围也增加了分类器的复杂度。

标准化处理，即规范化

proValue=(v-mean(x))/std(x)，mean(x)为v所在列的均值，std(x)为v值所在列的标准差，经过标准化处理将x序列转化为n(0,1)正态分布，由于受离散值得影响，均值mean(x)有时使用序列中位数median（x）替代。

在数据处理与训练数据集和测试数据集的划分优先级上，应首先进行数据集的划分。例如，如果对某数据集进行归一化，再按照比例进行测试集和训练集的划分，则两个数据集容易存在相关性，不利于对通过训练得到的权重进行检验，无法保证训练和测试的独立性。