自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(21)
  • 收藏
  • 关注

原创 2017.05.31回顾

1、上午基本就是开会,感觉也没讲个啥,确定了一下近期的工作优先级等等,然后就是提交一个time list,我下午还因为这个time list,花了30-60分钟2、下午回来主要就是几个需要实施的事,最后完成了模型在最后两个月的测试,12月开始显得不是那么好了,新内容不太多,主要就是对于numpy和pandas的巩固学习吧,ndarray和dataframe可以很灵活地转换,np.array和p

2017-05-31 21:14:53 184

原创 2017.05.27回顾

1、看机票做决策,最后是回家买好的2、按照早前定好的评价方法进行评价,building sample内的弄完了,有很多手工的工作,想办法用自动化的方法去替代上午只上了半天班,主要就是新模型评价

2017-05-31 16:30:01 160

原创 2017.05.26回顾

1、星期五很多时间是在看飞机票,然后在下午确定了请假计划,提交了申请,完成请假2、尝试找了下在excel中怎么对连续变量进行分段,没有找到解决方案,还是要在python去完成星期五还干了什么呢?感觉好难回忆起来,我觉得应该是建模相关的吧,还是那句话啊,一定一定要预留好时间,写好每日回顾,早点着手写!!!

2017-05-31 16:26:59 168

原创 2017.05.25回顾 lift转roc 不会出现前期发力模型

1、上午连续写了两篇小结2、继续上一篇小结中的第一个问题,定性上觉得可以loss来判断,但是觉得定量上证明比较复杂,我就曲线救国,研究了下这些lift画出roc是什么样子蓝线是我正常模型的lift曲线,红线是根据boss的描述画出来的,因为E(lift) = 1,所以红线后面只能越来越平缓,直线是我自己构造出来的,每个decile的lift是线性增加的,接下来就是怎么通过lift来

2017-05-26 10:42:28 605

原创 2017.05.24回顾 mysql添加索引

1、上午review了下模型的地区规则,boss提出了两点质疑,一个是对模型有效性,二个是提出了一种用地域去加减分的方法,当时他提有效性,我没有反驳,其实我对一些rank order的性质也不熟悉说明,后来我去做rank order的时候发现,前面的分隔本身就不明显,然后观察了其他的模型,不同的方法都是同一种分布,经验判断,模型都是这样,但是boss说看过前期发力的模型,我画了下,感性上认为,这样

2017-05-25 10:39:42 437

原创 2017.05.23回顾 python引用赋值 reset_index pd.concat

这两天实在是太忙,甚至都忽略了写博客,今天把23和24的博客补起来,节奏不能乱,不管多忙,老子都要写博客,磨刀不费砍柴时,博客写好,后续的工作效率会更高1、23号我上主要是在建模写拉数据的SQL,上午基本完成2、测试来找我改一些假接口,测试FOX的写入需求,中午完成,都是有bug,下午改了几次3、IT来找我,对AS结果进行组合,改好上线4、下午剩余的时间继续建模,我对别人的WOE工

2017-05-25 10:19:26 2621

原创 2017.05.22回顾

1、处理BUG,查看监控信息,开始着手证明R2和相关系数关系2、下午各种开会,最后找到一个已有的证明,学习了并补充在上次小结中,有一些证明题的技巧3、开始着手建合作方的模型,我想很认真地写SQL,花了一些时间,效率有点低,动作慢了差不多以上

2017-05-22 21:09:57 216

原创 2017.05.19回顾 TSS = ESS + RSS证明

1、对风控描述文档进行了修改,交付给了相关同事2、然后就是把Ken的接口加入到合作方决策引擎中,没什么问题,还是老套路,只是对于AS前置模型的情况进行了一些小处理3、下午我记得还Henry微信沟通了一下,放宽了AS某个渠道的客户4、下午还研究了手机三要素的问题,发现根本就没拉3A的手机三要素,然后又是一番沟通,过程中也了解到3A的一些库表结构5、下午的另外一半时间都是集中在领悟线性

2017-05-22 11:07:49 26498 6

原创 2017.05.18回顾

按照计划,把每日小结改到每天下班前进行1、上午小结写得很快,写完了上午就是继续研究为什么相关系数是线性关系的度量,还是有所进展的,推导了一元线性回归的最小二乘方法,对参数求偏导,令其等于0,解一个二元一次方程组,可以用行列式求解方法,先检验系数行列式是否等于0,不等于0,存在唯一解,然后,了解到R2是拟合优度的度量,其实就是相关系数R的平方,R2等于1减去误差平方和/y的方差,也就是说,相关系

2017-05-18 17:43:55 247

原创 2017.05.17回顾

1、写完小结,我记得是10点50,我开始起草招人的要求,先写了一个粗略的要求,没有格式化成普遍的招人格式,然后我去调查那些大数据竞赛的难度和含金量,在知乎和kaggle官网逛了逛,顺便还温习了一个简单的概率问题,独立事件,两个事件同时发生的概率P(AB)=P(A)P(B),和非独立事件,条件概率P(AB)=P(A)P(B|A)2、下午起床,继续逛知乎和一些大数据平台,了解到kaggle/天池/

2017-05-18 10:00:42 292

原创 2017.05.16回顾 mysql索引 format

1、上午主要是写小结,其间同事问了个问题,我从中也学到了一些新的写法,关于str.format方法可以类似于这种lista = [1234,234,555]lista = map(lambda x:str(x),lista)my_sql = 'select * FROM balabala WHERE customId IN ({0}) and phone = (\'{1}\')'.format

2017-05-17 10:46:47 247

原创 2017.05.15回顾 numpy新东西学习 scoreatpercentile

1、昨天上午精神不是太好,周末玩太疯没完全恢复过来,上午主要就是解决了那天抓付款方式那个SQL的问题,我用了单步调试的方法搞清楚了表与表之间的关系,这种SQL写法感觉也是一种我不太常用的思路,而且有时候把条件写在where后面是有道理的,做一种过滤,join是无法达到那种效果的2、下午对前置模型做了一些调整,温习了一个新的方法has_key,dict.has_key(key_name),如果有

2017-05-16 11:47:03 3370

原创 2017.05.12回顾

1、上周五上午做的什么工作我也忘记了,所以有必要每天晚上进行总结啊,多出来的工作就纳入下一天的总结2、下午开始解决相关系数的两个问题,第一个是为什么范围是-1到1,第二个问题为什么是线性相关性,-1到1有两个角度可以理解,从几何意义上看,是两个向量中心化后夹角的余弦,所以必定范围在-1到1之间,第二点可以这么理解,分母始终是正的,因为是标准差,但是分子也就有可能存在正负抵消的情况,所以值会小于

2017-05-16 10:29:31 240

原创 2017.05.11回顾

1、上午写完小结,开始思考重跑流程的问题,最后下午向同事沟通了解,制定了自己的策略2、上午还修复了一个de_p2的问题3、上午对常规数据进行了监控4、下午主要就是和henry沟通,关于某合作方产品通过率偏低的问题,首先抓取仅一天拒绝原因,透视表可视化,针对拒绝原因,分析在网时长和grade的组合,这里找在网时长浪费了一些时间,然后将结果发给henry,做一些调整,又继续聊了下其他关于客

2017-05-12 09:48:20 226

原创 2017.05.10回顾 numpy学习 其他python woe iv实现参考

1、昨天早上一来写小结都花了1个多小时,到11点3分结束,期间我在小结pandas相关用法的过程中,领悟了新的建空dataframe,然后不断append的方法2、小结完后,监控了一下坏账和模型运行状况3、上午小结完后,开始着手,合作方黑名单的问题,进行了一些设计和思考,还有处理一些杂事,比如解答boss的疑惑,差不多上午结束4、下午继续合作方黑名单的问题,进行了一系列修改,没什么新东

2017-05-11 11:15:10 6552

原创 2017.05.09回顾 pandas使用记录

1、给决策引擎P2做了一个伪接口方便测试,做完伪接口还剩1个多小时,我他妈干什么了呢?我怎么想不起了2、下午主要就是思考Simon留下的那个问题,几乎思考了一下午,把结论写在了上次挖坑的地方3、下午同时也解决了加解密的问题,那个软件可以授权进程就ok了4、晚上主要是写程序解决最佳同盾多头阈值寻找的问题,在这个过程中,我再一次熟悉了pandas的很多用法读取csv成dataf

2017-05-10 11:02:56 768

原创 2017.05.08回顾 协方差 相关系数

1、上午来到公司精神非常不好,也不知道为什么,有时候睡了有这么多个小时,就像中奖一样,还是会精神不好,只有去搜索一些资料来看,去逛了下kaggle,看了下知乎上人们对kaggle的评价,逛了下自己的投资收益,搜了下woe IV这一套评分卡建模方案有没有python实现,发现还是以前那个,到时候看可不可以直接站在巨人的肩膀上,上午顶着睡意开发合作方的模型2、下午睡觉起来,精神恢复,开始飙车了,主

2017-05-09 10:43:08 433

原创 2017.05.05回顾 关于决策边界的一些思考

星期五最重要的一个收获是在快下班的时候,关于LR在二维平面上的决策边界问题,一般来说以大于0.5为1,小于0.5为0,所以决策边界就是令Z = 0,也就是W0 + W1 * X1 + W2 * X2 = 0,在二维平面上画图的时候,就是X2 = (-W0-W1*X1)/W2,用这个式子找两个点就可以画出一条决策边界,但是对于bad rate很低的数据集,必然所有的点prob都小于0.5,也就是在决

2017-05-08 10:47:09 763 1

原创 2017.05.04回顾 线性可分的一些问题引出

昨天是青年节,下午应该放假半天,但是我还是在加班,因为不努力只配吃屎,不要受到环境干扰,而且环境中有些人我也没法比,先成为那个最高效,同时工作时长也足够长的人再说。1、上午修复了一个数据采集的问题2、5C/6C/7C/8C加入风控策略,策略同AS3、下午模型做矩阵策略,但是感觉效率不是太高,我先把qh和td进行排序,然后不考虑临界值的情况强行等分5组,然后拉出一个透视表,用肉眼不难看出

2017-05-05 14:45:17 205

原创 2017.05.03回顾 SQL效率探究 模型相关杂谈

1、上午去面试了个phd,压力大啊,还需要不断学习,不断交流,增加自己的知识,增强自己的交流和表达能力,take more practise2、我上午还干了什么?拉黑了某个城市,这个倒是很快!然后尝试分析organic模型对于爱尚是否有区隔度,写了下SQL,了解库表结构,抓逾期等信息3、下午继续到晚上继续干爱尚建模的事情,接触了一些新东西,也温故了旧知识,小结吸收一下开始发现S

2017-05-04 14:04:21 219

原创 2017.05.02回顾 git stash

有一段时间没写blog了,因为4月份休假了半个月,后面两周又一直在忙变动的事情,有一些心理压力吧,其实回想起来也没什么大不了的,后面两周应该还是可以继续写blog,放假的时候没有学习内容可以写,倒是可以少写或不写,不管怎么说,从今天开始,继续写blog。接下来对5月2日进行一些回顾!1、下午主要开发部署上线了在网时长规则,并没有什么新内容,把这事做好的素质只需要多沟通了解库表含义即可2、上

2017-05-03 10:06:07 376

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除