- 博客(12)
- 收藏
- 关注
原创 项目实训写实记录No.12
数据集和模型细节调整1.数据集调整2.逻辑回归模型细节调整 1.数据集调整 将各特征的IV值绘制成图画出 可以看到RevolvingUtilizationOfUnsecuredLines这个值的IV值很大,超过0.78,所以认为是异常特征,故在接下来的模型训练中将该特征删除。 绘制IV图的代码为 '''根据前文,已经算出了各变量不同分组对应的IV值,现在利用上述公式计算自变量的IV值''' ivx1=x1.iv.sum() ivx2=x2.iv.sum() ivx3=x3.iv.sum() ivx4=x4
2021-07-30 10:37:19
101
原创 项目实训写实记录No.11
信用评分卡的建立No.21.信用评分卡的建立2.代码实现3.最终建立的评分卡 1.信用评分卡的建立 对于ScorecardsData数据集,假设比例即违约与正常比v为1/70 PDD设置为30 则根据 B=PDD/log(2) A=Z+Blog(v) 有 令c为logistic模型的截距项 coef为回归参数的列表 基础分数为A-Bc 每种特征的各个区间:Bcoefwoe(woe为该数据区间的woe值coef为该特征的回归参数) 2.代码实现 ''' 评分卡计算 ''' def scorecard_cal
2021-07-30 10:23:45
90
原创 项目实训写实记录No.10
信用评分卡的建立No.11.信用评分卡的分数计算2.逻辑回归计算Odds3.计算A、B常数4.评分卡建立 1.信用评分卡的分数计算 评分卡设定的分值刻度可以通过将分值表示为Odds对数的线性表达式来定义。如下表示: Score= A - Blog( Odds), 其中Odds = p/(1-p) ,p为违约概率 其中,A和B为常数。.上式中负号可以使得违约概率越任 ,得分越高。 2.逻辑回归计算Odds 其中,β0,β1,… ,βp由Logistic模型拟合给出。 3.计算A、B常数 解上述两个方程中的
2021-07-30 10:17:42
88
原创 项目实训写实记录No.7
模型评估指标AUC1.AUC定义2.具体代码实现: 1.AUC定义 在二分类(0,1)的模型中,一般我们最后的输出是一个概率值,表示结果是1的概率。那么我们最后怎么决定输入的x是属于0或1呢?我们需要一个阈值,超过这个阈值则归类为1,低于这个阈值就归类为0。所以,不同的阈值会导致分类的结果不同,也就是混淆矩阵不一样了,FPR和TPR也就不一样了。所以当阈值从0开始慢慢移动到1的过程,就会形成很多对(FPR, TPR)的值,将它们画在坐标系上,就是所谓的ROC曲线了。 得到了ROC曲线,我们就可以计
2021-07-15 23:35:04
59
原创 项目实训写实记录No.5
WOE-IV值计算一.WOE编码1.基本概念2.WOE值的计算二.IV1.基本概念2.IV值计算三.ScorecardsData.csv数据集的WOE-IV值计算 一.WOE编码 1.基本概念 WOE(weight of evidience 证据权重): 一种有监督的编码方式,将预测类别中的集中度的属性作为编码的数值。 优势: 将特征值规范到相近的尺度上(经验上讲,WOE的绝对值波动在0.1-3之间) 具有业务含义 缺点: 需要每箱中同时包含好、坏两个类别 2.WOE值的计算 二.IV 1.基本概念 IV
2021-07-08 09:36:03
72
原创 项目实训写实记录No.4
数据特征选取数据特征选取1.根据相关性进行选取2.根据swarm图来选取特征3.使用 SelectKBest单变量特征选择4.递归特征消除 (RFE)5.交叉验证递归特征消除(RFECV) 数据特征选取 1.根据相关性进行选取 通过热力图观察特征之间的相似度,然后进行特征选取 如:这是三十个特征的热力图 从热力图上可以发现,radius_mean,perimeter_mean 和 area_mean 是相关的,因此我们仅使用 area_mean compactness_mean, concavity_mea
2021-07-07 16:08:47
210
原创 项目实训写实记录No.2
数据初探一.获取数据分布特点及可视化展现1.概念与机理(1)基本统计量(2)数据分布(3)相关性分析 一.获取数据分布特点及可视化展现 1.概念与机理 (1)基本统计量 众数 :一组数据中出现次数最多的数值 极差 :一组数据中最大值与最小值之间的差距 百分位数:将具有nnn个元素的数组升序排列后,处于x%x\%x%位置的值称为第xxx百分位数 中位数实际上是50%50\%50%分位数 统计中经常用到的是25%25\%25%、50%50\%50%、75%75\%75%分位数,分别称为第1、第2和第3四分位
2021-07-01 16:57:55
132
原创 项目实训写实记录No.1
项目实训写实记录No.1Python环境配置(Anaconda+Pycharm)1. 安装anaconda2.增加Anaconda中国镜像3.创建虚拟环境4.安装模块库numpy库使用1.创建数组2.数组维度3.数组元素筛选3.1直接给定下标索引3.2基于元素值间接给定下标索引3.3基于True/False条件返回对应的元素4 数组元素查找与统计4.1数组极值5.数组排序5.1一维数组排序5.2二维数组排序6数组元素增删7.数组拼接与拆分 Python环境配置(Anaconda+Pycharm) 1. 安装
2021-06-30 15:26:53
229
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人