自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(12)
  • 收藏
  • 关注

原创 项目实训写实记录No.12

数据集和模型细节调整1.数据集调整2.逻辑回归模型细节调整 1.数据集调整 将各特征的IV值绘制成图画出 可以看到RevolvingUtilizationOfUnsecuredLines这个值的IV值很大,超过0.78,所以认为是异常特征,故在接下来的模型训练中将该特征删除。 绘制IV图的代码为 '''根据前文,已经算出了各变量不同分组对应的IV值,现在利用上述公式计算自变量的IV值''' ivx1=x1.iv.sum() ivx2=x2.iv.sum() ivx3=x3.iv.sum() ivx4=x4

2021-07-30 10:37:19 101

原创 项目实训写实记录No.11

信用评分卡的建立No.21.信用评分卡的建立2.代码实现3.最终建立的评分卡 1.信用评分卡的建立 对于ScorecardsData数据集,假设比例即违约与正常比v为1/70 PDD设置为30 则根据 B=PDD/log(2) A=Z+Blog(v) 有 令c为logistic模型的截距项 coef为回归参数的列表 基础分数为A-Bc 每种特征的各个区间:Bcoefwoe(woe为该数据区间的woe值coef为该特征的回归参数) 2.代码实现 ''' 评分卡计算 ''' def scorecard_cal

2021-07-30 10:23:45 90

原创 项目实训写实记录No.10

信用评分卡的建立No.11.信用评分卡的分数计算2.逻辑回归计算Odds3.计算A、B常数4.评分卡建立 1.信用评分卡的分数计算 评分卡设定的分值刻度可以通过将分值表示为Odds对数的线性表达式来定义。如下表示: Score= A - Blog( Odds), 其中Odds = p/(1-p) ,p为违约概率 其中,A和B为常数。.上式中负号可以使得违约概率越任 ,得分越高。 2.逻辑回归计算Odds 其中,β0,β1,… ,βp由Logistic模型拟合给出。 3.计算A、B常数 解上述两个方程中的

2021-07-30 10:17:42 88

原创 项目实训写实记录No.9

11

2021-07-30 09:59:26 70

原创 项目实训写实记录No.8

逻辑回归模型结果转为标准评分卡

2021-07-15 23:36:08 105 3

原创 项目实训写实记录No.7

模型评估指标AUC1.AUC定义2.具体代码实现: 1.AUC定义 在二分类(0,1)的模型中,一般我们最后的输出是一个概率值,表示结果是1的概率。那么我们最后怎么决定输入的x是属于0或1呢?我们需要一个阈值,超过这个阈值则归类为1,低于这个阈值就归类为0。所以,不同的阈值会导致分类的结果不同,也就是混淆矩阵不一样了,FPR和TPR也就不一样了。所以当阈值从0开始慢慢移动到1的过程,就会形成很多对(FPR, TPR)的值,将它们画在坐标系上,就是所谓的ROC曲线了。 得到了ROC曲线,我们就可以计

2021-07-15 23:35:04 59

原创 项目实训写实记录No.6

123

2021-07-12 09:11:19 93

原创 项目实训写实记录No.5

WOE-IV值计算一.WOE编码1.基本概念2.WOE值的计算二.IV1.基本概念2.IV值计算三.ScorecardsData.csv数据集的WOE-IV值计算 一.WOE编码 1.基本概念 WOE(weight of evidience 证据权重): 一种有监督的编码方式,将预测类别中的集中度的属性作为编码的数值。 优势: 将特征值规范到相近的尺度上(经验上讲,WOE的绝对值波动在0.1-3之间) 具有业务含义 缺点: 需要每箱中同时包含好、坏两个类别 2.WOE值的计算 二.IV 1.基本概念 IV

2021-07-08 09:36:03 72

原创 项目实训写实记录No.4

数据特征选取数据特征选取1.根据相关性进行选取2.根据swarm图来选取特征3.使用 SelectKBest单变量特征选择4.递归特征消除 (RFE)5.交叉验证递归特征消除(RFECV) 数据特征选取 1.根据相关性进行选取 通过热力图观察特征之间的相似度,然后进行特征选取 如:这是三十个特征的热力图 从热力图上可以发现,radius_mean,perimeter_mean 和 area_mean 是相关的,因此我们仅使用 area_mean compactness_mean, concavity_mea

2021-07-07 16:08:47 210

原创 项目实训写实记录No.3

数据预处理一.检测和处理缺失值与重复值 一.检测和处理缺失值与重复值

2021-07-04 18:48:48 121

原创 项目实训写实记录No.2

数据初探一.获取数据分布特点及可视化展现1.概念与机理(1)基本统计量(2)数据分布(3)相关性分析 一.获取数据分布特点及可视化展现 1.概念与机理 (1)基本统计量 众数 :一组数据中出现次数最多的数值 极差 :一组数据中最大值与最小值之间的差距 百分位数:将具有nnn个元素的数组升序排列后,处于x%x\%x%位置的值称为第xxx百分位数 中位数实际上是50%50\%50%分位数 统计中经常用到的是25%25\%25%、50%50\%50%、75%75\%75%分位数,分别称为第1、第2和第3四分位

2021-07-01 16:57:55 132

原创 项目实训写实记录No.1

项目实训写实记录No.1Python环境配置(Anaconda+Pycharm)1. 安装anaconda2.增加Anaconda中国镜像3.创建虚拟环境4.安装模块库numpy库使用1.创建数组2.数组维度3.数组元素筛选3.1直接给定下标索引3.2基于元素值间接给定下标索引3.3基于True/False条件返回对应的元素4 数组元素查找与统计4.1数组极值5.数组排序5.1一维数组排序5.2二维数组排序6数组元素增删7.数组拼接与拆分 Python环境配置(Anaconda+Pycharm) 1. 安装

2021-06-30 15:26:53 229

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除