数据挖掘
凌岸_鸿
梦里不知身是客 一晌贪欢
展开
-
IV值
评分模型开发主要分为变量处理、模型建立、评分转换、模型评估4个步骤。 其中在变量处理的时候涉及IV值和WOE值的计算。基于抽样后得到训练样本集数据,由于变量数量通常较多,不推荐直接采用逐步回归的方法进行筛选。 由于各个变量的量纲和取值区间存在很大的差别,通常会对变量的取值进行分箱并计算 证据权重 WOE值(weight of evidence) ,从而降低变量属性的个数,并且平滑的变量的...原创 2017-08-30 16:26:00 · 23725 阅读 · 0 评论 -
评分卡生成
模型建立以后得到的log(odds)值是建模样本的好/坏比的对数,分值可以为负值,使得分值的可解读性很差,为了使得评分的结果更容易理解,更加具有实用性,我们希望看到评分卡的样子,通常对变量的特征值进行线性比例变换,并加上一个偏移量,公式如下: Score = factor * log(odds) + offset = factor (a * woe + b) of...原创 2018-03-05 14:16:03 · 2202 阅读 · 1 评论 -
kaggle——泰坦尼克号生死预测
把很久以前做的泰坦尼克号的代码贴出来。# -*- coding: utf-8 -*-"""Created on Fri Mar 30 14:23:12 2017@author: Yichengfan"""import pandas as pdtrain = pd.read_csv(r"F:\TS\03_other_parts\Titanic\02_data\train.csv...原创 2018-04-02 09:50:34 · 1041 阅读 · 0 评论 -
kaggle —— IMDB影评得分估计竞赛代码
IMDB影评得分估计竞赛代码# -*- coding: utf-8 -*-"""Created on Mon Apr 2 11:11:39 2017@author: yichengfan"""import pandas as pdtrain = pd.read_csv(r'F:\TS\03_other_parts\kaggle\02_IMDB\02_data\labeled...原创 2018-04-03 09:38:23 · 2327 阅读 · 0 评论