- 博客(16)
- 收藏
- 关注
原创 【数学建模】灰色关联度分析
灰色关联度分析(Grey Relation Analysis,GRA),是一种多因素统计分析的方法。简单来讲,就是在一个灰色系统中,我们想要了解其中某个我们所关注的某个项目受其他的因素影响的相对强弱,再直白一点,就是说:我们假设以及知道某一个指标可能是与其他的某几个因素**相关**的,那么我们想知道这个指标与其他哪个因素相对来说更有关系,而哪个因素相对关系弱一点,依次类推,把这些因素排个序,得到一个分析结果,我们就可以知道我们关注的这个指标,与因素中的哪些更相关。( note :灰色系统。
2023-05-26 22:10:34 3846 4
原创 【信用评分预测模型(五)】python决策树
决策树算法本质上是通过一系列规则对数据进行分类的过程。有监督学习。常见的决策树算法有ID3,C4.5,CART。ID3:采取信息增益来作为纯度的度量。选取使得信息增益最大的特征进行分裂。信息熵是代表随机变量的复杂度(不确定度),条件熵代表在某一个条件下,随机变量的复杂度(不确定度)。而信息增益则是:信息熵-条件熵。因此在计算过程中先算限制的复杂度,再减去某种条件分裂下的复杂度,选择增益最大的那种条件。信息熵和条件熵可以通过各类样本占样本集合的比例来计算出。
2023-03-24 23:40:25 666 1
原创 【信用评分预测模型(四)】Python随机森林模型
在这篇文章中已经对数据进行了标准化和异常值处理。得到了一个新的数据集,且数据集是不受极端值影响的数据集。在另外一篇文章中讲解了普遍情况下的随机森林预测模型,在这篇文章将运用在信用评分预测上。首先了解一下集成学习,集成学习(ensemble)思想是为了解决单个模型或者某一组参数的模型所固有的缺陷,从而整合起多个模型,取长补短,避免局限性。
2023-03-21 21:57:52 3523 7
原创 【信用评分预测模型(三)】PCA主成成分分析
主成分分析(Principal Components Analysis),简称PCA,是一种数据降维技术,用于数据预处理。PCA的一般步骤是:先对原始数据零均值化,然后求协方差矩阵,接着对协方差矩阵求特征向量和特征值,这些特征向量组成了新的特征空间。矩阵的主成分就是其协方差矩阵对应的特征向量,按照对应的特征值大小进行排序,最大的特征值就是第一主成分,其次是第二主成分,以此类推。减少数据集的维数,同时保留尽可能多的信息。PCA降维主要就是将原有的数据降维,减少变量,方便我们后续的分析。
2023-03-18 16:50:14 876 18
原创 【Python】ValueError: Input X contains NaN.
在对kaggle的数据集Give Me Some Credit进行信用评分卡的制作过程中,出现了报错。这个报错是在第一部分数据预处理的过程中出现的,发生在利用随机森林模型预测对空缺数据进行填充。
2023-03-15 21:27:16 7807
原创 【信用评分预测模型(二)】python数据标准化处理
在进行分析之前,要对数据进行合适的处理,数据基本统计分析和标准化是同时进行的。其中数据基本统计中,对于标称型数据,统计缺失值数量,分级情况,众数以及众数占比。对于数值型数据,主要统计了均值,标准差,缺失值数量,最小值,最大值,中位数。标准化与否对结果也会有一定的影响,我们先观察下现在标准化的状态。在这一步完成了空缺值填充,异常值处理,数据标准化处理,为后续分析打下基础。
2023-03-15 00:01:43 662 14
原创 【信用评分预测模型(一)】信用评分预测模型简介
在传统的信用风险预测的模型中,主要依靠的是人的主观经验判断,不够客观,很容易形成一种情况,在这个金融机构评分高,但是去其他金融机构评分较低,差异性较大。这样就不利于对个人或企业的信用风险预测不够统一,难以适应大数据时代的到来。并且过去的模式对人的要求极高,但随着大数据时代的到来和信用风险的种类不断增加,过往的信用评分模型会造成较大的误差。比如:过往贷款审批的时候,审批人手中所掌握的“工具”是一些零散的信息,比如借款人的工作单位,婚姻状况,或者大概一个月的收入是多少。
2023-03-14 12:42:37 1504 3
原创 【Python】遇见错误:ValueError: Classification metrics can‘t handle a mix of binary and continuous targets
在利用随机森林模型预测信用卡流失人数这个项目中,需要划分训练集和测试集。而在划分过程中出现了bug。
2023-03-13 23:08:39 2432 1
原创 【Python】随机森林预测
建立多个决策树并将他们融合起来得到一个更加准确和稳定的模型,是bagging 思想和随机选择特征的结合。随机森林构造了多个决策树,当需要对某个样本进行预测时,统计森林中的每棵树对该样本的预测结果,然后通过投票法从这些预测结果中选出最后的结果。1. 随机取特征2. 随机取样本,让森林中的每棵树既有相似性又有差异性通过随机森林模型的预测,可以发现所预测数据和真实的数据很接近,并且得分较高。
2023-03-13 19:32:39 15943 9
原创 【金融风险管理】python进行动态波动率的计算和时间序列的预测
根据前一篇文章算计算出来的股票对数收益率,我们在这一篇文章在前文的基础上,分别用朴素法(平均法)简单移动平均法5日简单移动平均法10日移动平均法15日移动平均法来一次指数平滑法二次指数平滑法三次指数平滑法来预测。并且用RMSEADF检验对数据进行平稳性检验。简单平均法就是用过去所有的值的平均值来作为我们的预测值,也就是所谓的期望均值,简单易计算,但是由于方法简单,限制较少,对数据的敏感度较大,预测效果一般。
2023-03-10 22:53:25 2586 2
原创 【数学建模】灰色预测法
灰色预测对原始数据进行生成处理来寻找系统变动的规律,并生成有较强规律性的数据序列,然后建立相应的微分方程模型,从而预测事物未来发展趋势的状况。clc;clear;%建立符号变量a(发展系数)和b(灰作用量) syms a b;%输入需要预测的数据 T1 = length(A);T2 = 100;%输入需要预测数据个数 t1 = 1 : T1;n = T1;
2023-03-05 12:45:34 11841 4
原创 【金融风险管理】python进行股票标准差、方差、均值、离散系数、标准化、对数收益率
1.先计算对数收益率:DuiShu = np.log(data['ClosePrice']) - np.log(data['ClosePrice'].shift(1))2.计算均值:np.mean()3.计算方差:np.var()4.计算标准差:np.std()5.离散:np.std() / np.mean()6.标准化:直接套调用以下为部分代码
2023-03-01 21:13:28 1632 3
原创 多元线性回归模型
我们在使用多元线性回归模型之前需要对变量做以下处理:1.对因变量进行正态分布检验,若符合则我们才可以使用,不符合则不选择。2.对自变量进行多重共线性检验,方法很多:(1)辅助回归模型检验(2)VIF膨胀系数检验(3)皮尔逊相关系数,相关系数的攫取,取决于自变量的分布,可用欧式平方距离择最优系数3.对变量进行T- test、F- test,目的是为了发现两者之前是否有统计学意义,是否有差异,以0.05为界限,若P大于0.05,则在统计学上无意义,但不能不代表无实际意义,比如在某个领域做
2023-02-14 20:36:42 909 2
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人