qq_44219737-CSDN博客

原创项目实训写实记录No.12

数据集和模型细节调整1.数据集调整2.逻辑回归模型细节调整1.数据集调整将各特征的IV值绘制成图画出可以看到RevolvingUtilizationOfUnsecuredLines这个值的IV值很大，超过0.78，所以认为是异常特征，故在接下来的模型训练中将该特征删除。绘制IV图的代码为'''根据前文，已经算出了各变量不同分组对应的IV值，现在利用上述公式计算自变量的IV值'''ivx1=x1.iv.sum()ivx2=x2.iv.sum()ivx3=x3.iv.sum()ivx4=x4

2021-07-30 10:37:19 132

原创项目实训写实记录No.11

信用评分卡的建立No.21.信用评分卡的建立2.代码实现3.最终建立的评分卡1.信用评分卡的建立对于ScorecardsData数据集，假设比例即违约与正常比v为1/70 PDD设置为30则根据B=PDD/log(2)A=Z+Blog(v)有令c为logistic模型的截距项coef为回归参数的列表基础分数为A-Bc每种特征的各个区间：Bcoefwoe（woe为该数据区间的woe值coef为该特征的回归参数）2.代码实现'''评分卡计算'''def scorecard_cal

2021-07-30 10:23:45 94

原创项目实训写实记录No.10

信用评分卡的建立No.11.信用评分卡的分数计算2.逻辑回归计算Odds3.计算A、B常数4.评分卡建立1.信用评分卡的分数计算评分卡设定的分值刻度可以通过将分值表示为Odds对数的线性表达式来定义。如下表示:Score= A - Blog( Odds), 其中Odds = p/(1-p) ,p为违约概率其中，A和B为常数。.上式中负号可以使得违约概率越任 ,得分越高。2.逻辑回归计算Odds其中，β0,β1,… ,βp由Logistic模型拟合给出。3.计算A、B常数解上述两个方程中的

2021-07-30 10:17:42 100

原创项目实训写实记录No.9

11

2021-07-30 09:59:26 104

原创项目实训写实记录No.8

逻辑回归模型结果转为标准评分卡

2021-07-15 23:36:08 156 3

原创项目实训写实记录No.7

模型评估指标AUC1.AUC定义2.具体代码实现：1.AUC定义在二分类（0，1）的模型中，一般我们最后的输出是一个概率值，表示结果是1的概率。那么我们最后怎么决定输入的x是属于0或1呢？我们需要一个阈值，超过这个阈值则归类为1，低于这个阈值就归类为0。所以，不同的阈值会导致分类的结果不同，也就是混淆矩阵不一样了，FPR和TPR也就不一样了。所以当阈值从0开始慢慢移动到1的过程，就会形成很多对(FPR, TPR)的值，将它们画在坐标系上，就是所谓的ROC曲线了。得到了ROC曲线，我们就可以计

2021-07-15 23:35:04 65

原创项目实训写实记录No.6

123

2021-07-12 09:11:19 152

原创项目实训写实记录No.5

WOE-IV值计算一.WOE编码1.基本概念2.WOE值的计算二.IV1.基本概念2.IV值计算三.ScorecardsData.csv数据集的WOE-IV值计算一.WOE编码1.基本概念WOE（weight of evidience 证据权重）：一种有监督的编码方式，将预测类别中的集中度的属性作为编码的数值。优势：将特征值规范到相近的尺度上（经验上讲，WOE的绝对值波动在0.1-3之间）具有业务含义缺点：需要每箱中同时包含好、坏两个类别2.WOE值的计算二.IV1.基本概念IV

2021-07-08 09:36:03 94

原创项目实训写实记录No.4

数据特征选取数据特征选取1.根据相关性进行选取2.根据swarm图来选取特征3.使用 SelectKBest单变量特征选择4.递归特征消除 (RFE)5.交叉验证递归特征消除（RFECV）数据特征选取1.根据相关性进行选取通过热力图观察特征之间的相似度，然后进行特征选取如：这是三十个特征的热力图从热力图上可以发现，radius_mean，perimeter_mean 和 area_mean 是相关的，因此我们仅使用 area_meancompactness_mean, concavity_mea

2021-07-07 16:08:47 267

原创项目实训写实记录No.3

数据预处理一.检测和处理缺失值与重复值一.检测和处理缺失值与重复值

2021-07-04 18:48:48 228

原创项目实训写实记录No.2

数据初探一.获取数据分布特点及可视化展现1.概念与机理(1)基本统计量(2)数据分布(3)相关性分析一.获取数据分布特点及可视化展现1.概念与机理(1)基本统计量众数：一组数据中出现次数最多的数值极差：一组数据中最大值与最小值之间的差距百分位数：将具有nnn个元素的数组升序排列后，处于x%x\%x%位置的值称为第xxx百分位数中位数实际上是50%50\%50%分位数统计中经常用到的是25%25\%25%、50%50\%50%、75%75\%75%分位数，分别称为第1、第2和第3四分位

2021-07-01 16:57:55 279

原创项目实训写实记录No.1

项目实训写实记录No.1Python环境配置（Anaconda+Pycharm）1. 安装anaconda2.增加Anaconda中国镜像3.创建虚拟环境4.安装模块库numpy库使用1.创建数组2.数组维度3.数组元素筛选3.1直接给定下标索引3.2基于元素值间接给定下标索引3.3基于True/False条件返回对应的元素4 数组元素查找与统计4.1数组极值5.数组排序5.1一维数组排序5.2二维数组排序6数组元素增删7.数组拼接与拆分Python环境配置（Anaconda+Pycharm）1. 安装

2021-06-30 15:26:53 317

qq_44219737的博客