【信用评分预测模型】
文章平均质量分 81
一帆1018
Python数据分析(金融领域)
展开
-
【信用评分预测模型(五)】python决策树
决策树算法本质上是通过一系列规则对数据进行分类的过程。有监督学习。常见的决策树算法有ID3,C4.5,CART。ID3:采取信息增益来作为纯度的度量。选取使得信息增益最大的特征进行分裂。信息熵是代表随机变量的复杂度(不确定度),条件熵代表在某一个条件下,随机变量的复杂度(不确定度)。而信息增益则是:信息熵-条件熵。因此在计算过程中先算限制的复杂度,再减去某种条件分裂下的复杂度,选择增益最大的那种条件。信息熵和条件熵可以通过各类样本占样本集合的比例来计算出。原创 2023-03-24 23:40:25 · 600 阅读 · 1 评论 -
【信用评分预测模型(四)】Python随机森林模型
在这篇文章中已经对数据进行了标准化和异常值处理。得到了一个新的数据集,且数据集是不受极端值影响的数据集。在另外一篇文章中讲解了普遍情况下的随机森林预测模型,在这篇文章将运用在信用评分预测上。首先了解一下集成学习,集成学习(ensemble)思想是为了解决单个模型或者某一组参数的模型所固有的缺陷,从而整合起多个模型,取长补短,避免局限性。原创 2023-03-21 21:57:52 · 3245 阅读 · 7 评论 -
【信用评分预测模型(三)】PCA主成成分分析
主成分分析(Principal Components Analysis),简称PCA,是一种数据降维技术,用于数据预处理。PCA的一般步骤是:先对原始数据零均值化,然后求协方差矩阵,接着对协方差矩阵求特征向量和特征值,这些特征向量组成了新的特征空间。矩阵的主成分就是其协方差矩阵对应的特征向量,按照对应的特征值大小进行排序,最大的特征值就是第一主成分,其次是第二主成分,以此类推。减少数据集的维数,同时保留尽可能多的信息。PCA降维主要就是将原有的数据降维,减少变量,方便我们后续的分析。原创 2023-03-18 16:50:14 · 792 阅读 · 18 评论 -
【信用评分预测模型(二)】python数据标准化处理
在进行分析之前,要对数据进行合适的处理,数据基本统计分析和标准化是同时进行的。其中数据基本统计中,对于标称型数据,统计缺失值数量,分级情况,众数以及众数占比。对于数值型数据,主要统计了均值,标准差,缺失值数量,最小值,最大值,中位数。标准化与否对结果也会有一定的影响,我们先观察下现在标准化的状态。在这一步完成了空缺值填充,异常值处理,数据标准化处理,为后续分析打下基础。原创 2023-03-15 00:01:43 · 613 阅读 · 14 评论 -
【信用评分预测模型(一)】信用评分预测模型简介
在传统的信用风险预测的模型中,主要依靠的是人的主观经验判断,不够客观,很容易形成一种情况,在这个金融机构评分高,但是去其他金融机构评分较低,差异性较大。这样就不利于对个人或企业的信用风险预测不够统一,难以适应大数据时代的到来。并且过去的模式对人的要求极高,但随着大数据时代的到来和信用风险的种类不断增加,过往的信用评分模型会造成较大的误差。比如:过往贷款审批的时候,审批人手中所掌握的“工具”是一些零散的信息,比如借款人的工作单位,婚姻状况,或者大概一个月的收入是多少。原创 2023-03-14 12:42:37 · 1302 阅读 · 3 评论