自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(22)
  • 收藏
  • 关注

原创 一种独特的logistic定义 lift logistic变量选择法 2016.07.29回顾

1、上午解决了为什么weka和R拟合出来的系数不一样,R拟合出来的系数是weka拟合出来系数的2倍,后来问了博士,经讨论才知道,还有一种logistic的定义是-1和1的定义,那种的link函数,恰好是e的2z次方,所以说系数存在一个2倍关系,至于具体对于损失函数和系数迭代公式产生的影响我还有待继续研究一下,现在只是明白了weka的simplelogistic算法应该是用的2z的定义,我后来又用自

2016-07-29 17:43:10 687

原创 初步建模 2016.07.28回顾

1、上午完善了所有单变量的分析,缺失值替换等数据准备和预处理工作2、下午用weka的logistic算法跑了下,下班的时候又用R跑了下,居然发现系数不一样,R是weka的2倍关系,weka预处理不能直接把numeric的class变量转换成binary,binary变量一转换就是全部转换,应该用numeric转换成nominal,选择last列就可以了3、但是昨天用的建模方法都是单变量分析

2016-07-29 09:55:39 347

原创 iv预测能力 2016.07.27回顾

1、整理好了建模申请变量数据集,手工的计算了大部分单变量的iv2、iv的预测力我昨天参考到两个地方,《消费信贷-评分建模与应用》是iv = 0.5 极高;微信公众号《KPMG大数据挖掘》是iv

2016-07-28 09:43:39 1053

原创 javascript基本知识回顾 2016.07.26回顾

1、设计了一个公式,用年龄和收入去计算贷款金额,用了一个一元二次方程,一元二次方程在几何上是一个抛物线,具有对称性!已知过的三个点可以去解,也可以用顶点,和他的对称性去求解!我可以解释,如果觉得不好,那就自己设计。2、javascript的求幂函数Math.pow(),python的求幂函数也是pow(),javascript小数转换整数,parseInt(),条件控制语句if ... els

2016-07-27 09:40:55 212

原创 2016.07.25回顾

1、昨天主要是抓取申请变量,发现了以前申请变量的问题,我自己开始重写,写了9个变量了,今天完成这部分自变量的抓取2、其他的就是想学习一下别人是怎么利用第三方评分建模,但是并没找到有用的参考,有矩阵法,有外部变量浮动评分昨天做的差不多就是以上吧,效率方面还是问题,不能划水,主要是工作时间要专注,不要聊QQ!

2016-07-26 09:16:26 183

原创 2016.07.22回顾

1、测试环境修改并部署2、了解了一下集成学习相关3、再一次演算了关于logistic转换评分卡,就是一种线性映射,只是标准不同,可以固定一个阈值,设定刻度,可以设定最大最小刻度,自然就可以得到一个分数的刻度,但是后者不make sence,没有第一种便于理解

2016-07-22 15:27:25 189

原创 postgresql日期计算 laravel模板引擎 数据迁移 2016.07.21回顾

1、昨天对于loans找出与之对应的pboc,数量差140+个,我分析了下这140+个中,PBOC为NULL的情况,有些是存在pboc我没跑过,有些是newportal中也没有的pboc,最多的还是空征信!其他的查询时间大于贷款生成时间的我还没来得及分析!2、laravel我更进一步写了一个test页面(包含一些模板语法),@extends()可以继承其他模板,@section替代@yield

2016-07-22 09:40:31 629

原创 laravel 初见 安装 路由 模块化 2016.07.20回顾

昨天主要的工作就是把adminLTE用laravel改成模板,主要涉及到一些laravel的安装、调试等等1、安装laravel,首先需要安装一个叫composer的东西,composer是php的包管理工具,去官网下载composer_windows安装包,直接双击安装,但是出现了提示PHP的openssl未开,2、打开php.ini中去掉extension=php_openssl.dl

2016-07-21 09:54:37 442

原创 2016.07.19回顾

1、昨天整理出了BOSS需要的数据集,有些数据我并没求精,如果求精昨天做不出来,建模的数据集的话还是需要求精,他那个数据没必要求精,时间要用在刀刃上!2、然后昨天工作不专注,一边工作一边在吹QQ,工作时间不要吹QQ,要认真工作,本来我就不如别人那些工作勤奋了(每天可能被迫工作12小时),所以工作的这8小时一定要全力以赴,不是为了别的,只是为了自己多学技术,多做出一些成果,不能被周围人都是懒惰、

2016-07-20 09:17:15 184

原创 2016.07.18回顾

1、改了取loan_number的逻辑(增加了一个loan_offer_status_id),改了取account_id的表,改了取income的表,改了取收入方式的表2、交付了自动检测的需求3、下午整理前海的数据集,做好了其中一个因变量,照着前海的分析方法做了一个分析,还是有一定区隔度,照搬tony的公式,计算了gini和ks,当然效果是不如tony的!把前海也分成5等分来和tony的比

2016-07-19 09:42:33 251

原创 2016.07.15回顾

繁忙而充实的一天,对今天的工作作一个小结1、上午处理了系统方面的紧急问题,loan_offer_status_id 和 王辉的表亟待解决,下周一改了再上传2、上午和tony通话,tony提出了pitch数据可能存在问题,我用以前的query,自己改进的query(其实从逻辑上讲我唯一改进的是fix了paid_off后面那些期的情况,paid_off和current都发现了有问题的,past

2016-07-15 17:38:16 198

原创 2016.07.14回顾

1、学习了一篇骗子用大数据精准诈骗的文章,基本上用到的还是信用模型的方法,只是特征选择中有一个最大信息熵方法,我不是太明白,其他的用iv或者用卡方检验来筛特征、还有SAS中用到的向前选择、向后选择、逐步选择,最后文章中的案例还是用woe、iv的方法,选出了5个比较不错的特征,这种相当于是信用模型方法的另一个应用!2、中午研究了一下五险一金的东西,都是上了2年班的人,其实还没深入了解到五险一金的

2016-07-15 10:52:45 233

原创 2016.07.13回顾

1、上午了解下php的模板引擎,smarty,但是没看个所以然,回归archangel吹逼去了2、下午又发现了另一个php模板引擎laravel,而且有教程教怎么把adminLTE改成模板的形式3、剩下的时间处理了tony的需求,以及一些探讨4、抓紧时间开始整理逾期数据

2016-07-14 09:34:06 236

原创 bootstrap 2016.07.12回顾

1、添加了一个reFlag键,lisheng那个是个方法,把键值一直传着走就可以了,我之前还没想到,但是部署上出现了协调沟通问题,还是要多走出工位,多沟通交流才行!2、用那个前端模板改好了模型结果分析的页面,bootstrap风格的按钮一般用的是class="btn btn-default",然后要把各个表单元素放在一个form标签中,form标签class="form-inline"内联控件

2016-07-13 10:06:37 351

原创 2016.07.11回顾

1、找回了apple ID,下载了安全令2、增加了重跑模型的接口3、看了一下那几个疑似吸毒人员和非本人申请的情况4、下午开始美化风控监控平台,找了半天,还是尝试了佐神的AdminLTE,完成了贷款金额监控页面,效果挺好的,值得研究一下,展示型很好

2016-07-12 09:21:56 213

原创 2016.07.08回顾

1、写好了新的接口,暂时还没发布,怕出错,我下周再检查一遍2、上午写了两份日小结,然后随便看了下前海征信以及一些相关的咨询就吃饭去了,也没什么实质的内容,反正就是传统金融指标权重还是比较大,65%,新型指标35%,然后传统方法和新的机器学习算法集成学习产生新的结果3、另外还有一些讨论!

2016-07-08 17:14:37 234

原创 2016.07.07回顾

1、帮tony拿数据,一个是前海征信分数和我们自己模型的比较,另一个是24个月内连续三个1的情况,还做了贷款之前那份征信的判断,似乎老系统和新系统有点不一样,需要进一步分析2、明确了一些要改进的地方,要增加的接口

2016-07-08 10:37:27 178

原创 信用模型 2016.07.06回顾

1、研究了一下chi-square test,用spss做了一下检验,我发现是有效果的,但是和tony讨论,tony还是不太信任这个的结果,问他有没有什么量化的方法来确定样本容量多少可信,他并没说个所以然,我还是相信这个检验的作用的,只是说我没看到书上有提到woe后,要用卡方检验去校验,刚才去搜索了下相关知识,卡方检验是因变量在自变量上的分布差异,如果说明自变量和因变量的关联,其他因素应该是随机的

2016-07-08 10:29:36 299

原创 卡方检验 2016.07.05回顾

1、处理了一些紧急事件2、尝试区分修旧客户,又想改进前端设计,下午又很嘈杂,所以一件事都没干成,效率偏低3、还发现了几个客户老的payments是存在问题的4、学习了《评分建模与应用》,主要就是讲的评分卡的应用,但是讲得比较泛,感觉是一些观念性的,提到了评分卡存在一个适用范围,有些重大逾期或黑名单用户可以不进入评分阶段,另外提到评分卡要思考解决的问题,实际是否起到了作用,还讲了B卡C卡

2016-07-06 10:09:56 701

原创 mysql两个日期之差 止付与冻结 2016.07.04回顾

1、主要研究了征信报告中止付与冻结的区别,我发现这两个状态几乎没有区别,银行都在用,网上的可能性会更多一些,然而我实际观测到的几乎都是因为逾期造成的止付或冻结,只有1个很奇怪,只有1次逾期也被冻结了,网上的可能性还有诸如暂时冻结云云,但是体现在征信报告上我没看见,我对于冻结和止付的做了分析,可以形成一条rule2、mysql计算两个日期之差,timestampdiff(day,减日期,被减日期

2016-07-05 09:23:52 697

原创 MYSQL日期增减 2016.07.01回顾

又废马达又废电的一天啊,数据清洗工作太过繁琐,要找出每种出错的可能,依次去修复,最后下班前还遇到一个bug,由于mysql的query报错不会定位具体的出错行数,我开始以为是自己query的逻辑漏洞,搞了半个小时,最后在回家的路上才想到,可能是IT那张表的问题,今天来查果然是这样!坑啊!这里只复习一下一个mysql函数日期增减DATE_ADD(CURRENT_DATE,INTERVAL

2016-07-04 10:16:49 355

原创 python元组或运算 python-oracle接口问题 2016.06.30回顾

1、python中两个元组的或运算,不能直接用or,我测试了一下,A元组 OR B元组,结果好像一直都是A元组,要让A元组和B元组中每个元素都做或运算,我用到比较pythonic的方法是用map,map我之前还以为只能用于一个list或tuple,map(lambda x,y:x or y,tupleA,tupleB),这种我没有尝试如果两个元组length不等于会发生什么情况,这种得到的结果是一个

2016-07-01 10:54:43 473

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除