信用评分
strwolf
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
2016.06.23回顾
1、操作风险,银行办理业务或内部管理出了差错;法律文书有漏洞,被人钻了空子;内部人员监守自盗,外部人员欺诈得手;软硬件系统故障,黑客入侵,通信、电力中断;自然灾害、恐怖袭击 2、上午主要就是找队友,介绍了半天公司的情况,还是不亏,这个时间是值得的,以公司为平台,想办法把牛人聚集起来,对于自身的发展是有帮助的! 3、ABC卡,分别是application scorecards,behavior s原创 2016-06-24 09:42:12 · 343 阅读 · 0 评论 -
2017.05.03回顾 SQL效率探究 模型相关杂谈
1、上午去面试了个phd,压力大啊,还需要不断学习,不断交流,增加自己的知识,增强自己的交流和表达能力,take more practise2、我上午还干了什么?拉黑了某个城市,这个倒是很快!然后尝试分析organic模型对于爱尚是否有区隔度,写了下SQL,了解库表结构,抓逾期等信息3、下午继续到晚上继续干爱尚建模的事情,接触了一些新东西,也温故了旧知识,小结吸收一下开始发现S原创 2017-05-04 14:04:21 · 260 阅读 · 0 评论 -
2017.05.24回顾 mysql添加索引
1、上午review了下模型的地区规则,boss提出了两点质疑,一个是对模型有效性,二个是提出了一种用地域去加减分的方法,当时他提有效性,我没有反驳,其实我对一些rank order的性质也不熟悉说明,后来我去做rank order的时候发现,前面的分隔本身就不明显,然后观察了其他的模型,不同的方法都是同一种分布,经验判断,模型都是这样,但是boss说看过前期发力的模型,我画了下,感性上认为,这样原创 2017-05-25 10:39:42 · 491 阅读 · 0 评论 -
2017.05.25回顾 lift转roc 不会出现前期发力模型
1、上午连续写了两篇小结2、继续上一篇小结中的第一个问题,定性上觉得可以loss来判断,但是觉得定量上证明比较复杂,我就曲线救国,研究了下这些lift画出roc是什么样子蓝线是我正常模型的lift曲线,红线是根据boss的描述画出来的,因为E(lift) = 1,所以红线后面只能越来越平缓,直线是我自己构造出来的,每个decile的lift是线性增加的,接下来就是怎么通过lift来原创 2017-05-26 10:42:28 · 686 阅读 · 0 评论 -
2017.05.05回顾 关于决策边界的一些思考
星期五最重要的一个收获是在快下班的时候,关于LR在二维平面上的决策边界问题,一般来说以大于0.5为1,小于0.5为0,所以决策边界就是令Z = 0,也就是W0 + W1 * X1 + W2 * X2 = 0,在二维平面上画图的时候,就是X2 = (-W0-W1*X1)/W2,用这个式子找两个点就可以画出一条决策边界,但是对于bad rate很低的数据集,必然所有的点prob都小于0.5,也就是在决原创 2017-05-08 10:47:09 · 846 阅读 · 1 评论 -
2017.06.02回顾 模型评价的正确方法
1、决策引擎调整2、做了现在模型和上版模型的比较,令人意外的是上版模型在目前的放款客户中有非常好的rank order,这就尴尬了,那毕竟是我抠脚建的模型,居然在现有模型的通过域中有这么好的划分,但是问题来了,我感觉到,如果把此模型用于全部样本,可能区隔并没有这么好,因为这个模型当初12月、1月也使用过并没有逆天的效果,略微好于现在,难道要把这两个模型ensemble起来?直接ensemble原创 2017-06-05 15:01:11 · 453 阅读 · 0 评论 -
2017.06.05回顾 dataframe找到喊缺失值的column list组成dataframe
上午精神不是很好,有点瞌睡,看了下周边,群里面水了几句1、思考了下模型评价的问题2、决策引擎修改3、继续建v7,首先建了个轮子,找出dataframe中的缺失值,用isnull写一个函数,我开始也大概想到这种思路的,但是还是在不遗余力地寻找现成的方法def find_na_column(df): miss_columns = [] for column in df:原创 2017-06-06 10:15:53 · 1361 阅读 · 0 评论 -
2017.06.06回顾 三种构造dataframe的方法 多重共线性开坑
1、和星期一上午一样的问题,就是精神不好,打瞌睡,我后面的主要工作就是把注册信息变量提取整理做到建模表中,上午还日常看了下股票,亏得他妈一塌糊涂2、下午一来就是继续v7的开发,关于上一个工作日的两个list合成dataframe的方法,我觉得是存在问题,感觉到太繁琐了,我于是查了下资料,我震惊了,原来那么简单,我并且根据这个总结了三种不同的构造dataframe的方法#三种构造datafr原创 2017-06-07 10:43:59 · 2208 阅读 · 0 评论 -
2017.07.06-2017.07.07回顾 信息熵的坑 多重共线性实践
上周最后两天比较忙,没来得及写小结,这里补充一下上周还是忙建模的事情,稳定性上进行一些新的探索,周四还面试了几个人,有些知识不用确实容易忘记,但是有什么办法了,只有一遍一遍去理解,面试别人的时候也不用着急,也不要怕丢人,现场去推理,这样也可以检验对方的水平,就是个探讨,技术上没有什么丢人不丢人原创 2017-07-11 11:21:27 · 605 阅读 · 1 评论 -
2017.07.12回顾 python mysql decimal case when漏掉一种情况 mysql字符串参与算术运算
今天继续进行新模型实施的工作1、上午完成了审批金额计算的模块,主要就是涉及到和之前系数转换的问题,反正就是个体力活啦,没什么新的东西2、下午主要是布上knowru,测试,修改各种bug,看看有没有哪个bug的解决可以记录一下mysql-python这个模块抓了一个(mysql数据类型为decimal的字段+mysql数据类型为decimal的字段),这个类型还是decimal,取出原创 2017-07-12 20:31:11 · 857 阅读 · 0 评论 -
2017.07.14回顾 ipython魔法命令 浮点数定义 GPL 为什么要WOE编码
1、一些小的工程改动2、建表/增加字段,decimal(9,2)表示一共9位,小数是2位,int(2)不是代表两位数,仍然可以存储大数3、Ipython的console中有一些魔法命令,以%开头,matplotlib就有一个魔法命令%matplotlib qt,后面的参数可以指定显示图像的GUI库,我本身没有pyqt库,我用pip instaall失败,但是用conda install p原创 2017-07-17 10:10:26 · 773 阅读 · 0 评论 -
2017.08.16回顾 关于PSI 关于WOE无拒绝推断影响
继续思考woe iv psi 拒绝推断这个我都觉得难以control的问题,好在今天总算有了自己的一些结论和未来尝试方向变量每组好坏比不变,分布变,woe同增同减,影响不大psi没卵用,更应该去关注变量每组的好坏趋势是否有变化拒绝推断我目前暂时不需要,但是这么低的通过率,以后应该会遇到这个问题可以尝试用bad rate在总体中去计算woe或者用bad rate编码,这个可以消除建模集到原创 2017-08-16 21:01:52 · 2260 阅读 · 3 评论 -
2017.08.09回顾 seaborn两个坐标系 series中mixtype sorted key
1、上午对现有决策引擎做了一些简单修改,没什么技术含量,注意的地方就是条件概率的计算2、继续SQL抓取数据集,没什么技术含量,后来发现中间少抓了几个变量,已经补上,后面还需要check看是否遗漏变量3、有了数据集,又开始耍自己的评分卡工具包,对工具包做了一些修改,美化barplot/修正排序BUG/regroup写成静态方法,过程中发现一些问题,也有一些收获我发现我给int64原创 2017-08-10 14:10:08 · 1667 阅读 · 0 评论 -
2017.03.17回顾 IV系数理解
1、上周五上午吃了药,实在是困,上午半睡半醒间还去面试了一个人2、下午巩固了一下iv和woe,我居然记不住怎么通过woe计算iv,记不住前面乘以一个什么系数了,我重新审视了一遍这个系数的意义,我觉得有三个作用,第一、这个系数带了该类样本占总样本的比例信息,第二、这个值(Gi/GT) - (Bi/BT)的正负和后面的ln((Gi/GT)/(Bi/BT))相同,消除正负号,便于后面累加,第三、这个原创 2017-03-20 10:08:02 · 654 阅读 · 0 评论 -
2017.03.16回顾 线性代数 最小二乘 pdo 3C
1、研究了线性模型,写出损失函数,然后求导就给自己卡了一下午,我不知道矩阵该怎么求导,方法就是所谓的最小二乘,在解决这个问题的过程中,我也温故了一下数学知识。向量内积:又称向量点积(dot product),两个向量相乘得到一个标量,在二维和三维空间的几何意义是,两个向量模长乘以夹角的余弦,ab = ︱a︱︱b︱cosθ 向量外积:又称向量叉积,两个向量相乘得到一个向量,向量的模等于︱原创 2017-03-17 17:58:59 · 433 阅读 · 0 评论 -
相关性 把excel数据导入数据库 2016.08.02回顾
1、开始研究新的外部数据源,前海征信的常贷客数据,花了很多时间进行数据整理,了解数据的含义,最后初步做了两个分析,没有显示出预测能力,主要是这个数据不太精准2、数据整理过程中涉及到一个新的技巧,navicat可以直接导入excel的数据,navicat导入向导直接导入,没有表的话,navicat可以自动建,有一些图形化的操作,可以命名字段名类型等,多的数据也可以分步导入,不会影响,但是应该字段原创 2016-08-03 10:38:45 · 634 阅读 · 2 评论 -
logistic转换成标准评分卡
昨天痛定思痛,思考了一下,有时候干一个事情呢其实是不需要深入到数学细节的,有时候记住结论就可以了,另外的事情是数学家的事情,所以我开始转换思路,开始直接看评分卡模型的相关资料,直接从终点出发,有不懂的再回溯,我觉得这个学习方法还比较适合自己,我称为就是干(just do it)的方法,边打仗边学习,没必要找本书开始看基础理论(需要艰深的数学知识,进展太过缓慢)。 昨天学习评分卡的设计流程概要,其中原创 2016-06-03 09:32:51 · 22482 阅读 · 4 评论 -
模型监测 2016.06.03回顾
1、模型监测,可以用卡方检验实际分布,但是有一个问题,就是我们建模的数据,是上一版的模型已经通过的客户,也就说这些客户理论上来讲(上一版模型是可靠的)坏客户的比率本来就会低一些,如果没加入拒绝演绎的话,现在的实际分布本身就该比建模的时候存在一些不同的地方,主要呈现出来的应该是低等级的客户比例应该更大,所以不能无脑卡方检验两个分布的显著性差异,我觉得如果要做卡方检验就应该加入拒绝演绎,算出被拒绝部分人原创 2016-06-06 09:26:17 · 594 阅读 · 0 评论 -
python文件操作 信用模型 2016.06.27回顾
1、python在linux中创建文件夹,os.mkdir,os.mkdir不能递归地创建文件夹,也就是说父文件夹必须存在,os.makedirs可以递归地创建文件夹 2、python判断文件是否存在,用到的是os.path.exists() 3、nohup重定向的命令问题,nohup command >log 2>&1 &这样写日志,重启一次命令,上次的log会被覆盖,运维告诉我用nohup原创 2016-06-28 10:24:06 · 1089 阅读 · 0 评论 -
cx_Oracle安装 评分卡完善 2016.06.06回顾
1、上午开了个会,然后完善了评分卡,发给tony讨论,然后我分析了下评分卡的各个维度,发现模型倾向的人群,以及各个维度的比重 2、下午主要就干了一个事情,就是centos上安装python module cx_Oracle,python连Oracle的接口!几乎弄了一个下午,另外一篇博文记录了配置过程 3、在配置过程中也同时又学习了linux的命令grep -i 参数忽略大小写yum ins原创 2016-06-07 09:34:31 · 392 阅读 · 0 评论 -
PYTHONIOENCODING 信用评分 2016.06.28回顾
1、开始用的PYTHONIOENCODING=gbk生成的日志文件,这样日志文件就是gbk编码,再用PYTHONIOENCODING=utf-8,确实是按照utf-8写入,但是“翻译”成了gbk,所以是乱码,最后删除掉旧的日志文件,重新生成一个,就是按utf-8编码,解决中文乱码问题 2、en_US是系统所在地区,可能是涉及一些任务栏,菜单栏语言,不会影响中文的显示 3、我想写成一种队列的形式,原创 2016-06-29 09:28:30 · 1615 阅读 · 0 评论 -
dns配置 echarts颜色 mysql增加一天 评分模型学习 2016.06.13回顾
1、centos的dns配置,在/etc/resolv.conf中,nameserver 61.128.128.68 2、内网服务器centos上域名解析存在一些问题,速度很慢,我改为了直接用ip访问,正常了 3、开始实施loan_amount计算,确认了新老客户SQL逻辑,写好了sql,确认了loan_amount计算逻辑 4、学习了评分模型相关,看了一下聊天记录,了解了业内人士的方法:原创 2016-06-14 10:16:52 · 593 阅读 · 0 评论 -
mysql两个日期之差 止付与冻结 2016.07.04回顾
1、主要研究了征信报告中止付与冻结的区别,我发现这两个状态几乎没有区别,银行都在用,网上的可能性会更多一些,然而我实际观测到的几乎都是因为逾期造成的止付或冻结,只有1个很奇怪,只有1次逾期也被冻结了,网上的可能性还有诸如暂时冻结云云,但是体现在征信报告上我没看见,我对于冻结和止付的做了分析,可以形成一条rule2、mysql计算两个日期之差,timestampdiff(day,减日期,被减日期原创 2016-07-05 09:23:52 · 758 阅读 · 0 评论 -
OptionParser getattr github 模型问答 2016.06.20回顾
昨天主要是把风控系统从gbk转成utf-8,把环境变量都改到程序中,上传项目到github库,中间夹杂着看了一下echarts的关系图结构,和tony讨论,把学习到的新东西总结一下! 1、接受命令行参数使用的是OptionParser模块,OptionParser首先初始化一个OptionParser类,parser = OptionParser(),这个初始化还可以带一些参数,但是我没有去追究这原创 2016-06-21 10:01:02 · 377 阅读 · 0 评论 -
echarts关系图 unicode编码 phpsql 2016.06.21回顾
1、上午一直研究echarts的关系图怎么弄,echarts有两个官网,一个是echarts3,一个是echarts2,我一直用的echarts3,里面的实例好几个复杂的都是调用一个xml,这个xml是一个有名的关系图(只画关系图吗?)软件Gephi导出格式gexf ,开始的想法是想动态地去生成这个xml,后来发现有点复杂,然后又看了几个简单实例,再结合文档,发现是可以直接写json格式的,涉及原创 2016-06-22 09:39:47 · 961 阅读 · 0 评论 -
信用模型 2016.07.06回顾
1、研究了一下chi-square test,用spss做了一下检验,我发现是有效果的,但是和tony讨论,tony还是不太信任这个的结果,问他有没有什么量化的方法来确定样本容量多少可信,他并没说个所以然,我还是相信这个检验的作用的,只是说我没看到书上有提到woe后,要用卡方检验去校验,刚才去搜索了下相关知识,卡方检验是因变量在自变量上的分布差异,如果说明自变量和因变量的关联,其他因素应该是随机的原创 2016-07-08 10:29:36 · 346 阅读 · 0 评论 -
花式sql 信用模型 2016.06.22回顾
1、上午主要是帮tony拿一些逾期相关的数据,在新老客户的判别上我想写得完备一些,但是where的方法不能直接转换为group by查全部,后来我是通过先计算loans表中客户的贷款次数,然后再用所有的national_id去连接,没连到的就是0,这样也能输出全部national_id的以往贷款次数,也能输出全部account_id的贷款次数,对于多个account_id对应一个national_i原创 2016-06-23 09:33:25 · 400 阅读 · 0 评论 -
gini系数 lift指标 ROC AIC 2016.08.01回顾
1、上午主要研究了gini系数的算法,关键点就是用梯形面积去近似曲线形成的面积,横轴是按照降序排列或升序排列的人,纵轴是bad rate,把bad rate的坐标的两两连接起来就可以得到若干梯形,计算这些梯形的面积之和,近似等于洛伦茨曲线下面积,升序或是降序确定了,梯形在洛伦茨曲线之上还是之下,但是阴影面积是不变的,阴影面积除以0.5(的面积)就是gini系数,但是tony用的并不是0.5,ton原创 2016-08-03 10:26:11 · 4058 阅读 · 0 评论 -
2017.08.14回顾 IV的系数
1、校验了建模数据存在的问题2、阅览了FICO的产品介绍,里面可以窥见一些方法3、SQL拉出新数据集,数据洞察4、思考系统的变量随时间随不同因变量定义的稳定性校验方法,思考了PSI,以及拒绝推断等等相关问题5、在IV的计算过程中前面乘以一个系数(Gi/GT-Bi/BT),固定该组好坏比,后面的WOE就不变,所以在好坏比固定的情况下,该组样本数越多,系数就越大,因为(Gi/GT-Bi原创 2017-08-14 21:30:40 · 807 阅读 · 0 评论
分享