自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(10)
  • 收藏
  • 关注

原创 2017.02.24回顾 logistic 1 -1 定义

1、去学习了一下,用1和-1编码的logistic regression的损失函数,gbdt论文中提到的损失函数,是单个样本点的,其次要令y* = 2y - 1把0,1映射到-1,1,定义p的时候多一个2倍,即p = 1/(1+exp(-2f)),把这两部分带入log似然函数就可以得到-1,1定义下的损失函数,log(1+exp(-2yf)),其实推导过程我是没看懂的,这个y我不知道是怎么拿进

2017-02-27 12:09:07 1077

原创 2017.02.23回顾

1、重新弄knowru2、受到家庭事务的影响,工作效率低下3、推导当y属于[-1,1]时,logistic sigmoid函数形式,因为要搞清楚gbdt迭代过程,论文中的二分类用的编码是1和-1

2017-02-24 09:49:15 315

原创 2017.02.22回顾

1、昨天不服气,还是继续研究怎么把决策树的结构输出出来,因为有一个包,没装好,在anaconda环境中,我用了这样一个命令进行安装,conda install -c conda-forge pydotplus,成功安装,安装过程中有几个conda的相关东西需要安装或是update(确切的说,好像是conda-forge),其实我不清楚这个命令的意思,反正用pip install pydotplus

2017-02-23 17:50:34 1048

原创 2017.02.21回顾

1、和博士讨论了下facebook论文中的问题,讨论的一些收获记录在了昨天的日志中,讨论完就已经是吃中午饭时间了2、下午添加了as_cash用户pti的限制规则,2点还和小胖喝了个下午茶,完成这个规则已经是3点半了3、接下来的时间我尝试去动手实现facebook论文中的内容,回顾了一下sklearn的源代码,网上看到了一种可以可视化决策树的方法,但是环境部署的时候出现了一些问题,有个包不能

2017-02-22 10:04:47 230

原创 2017.02.20回顾 gbdt+lr

1、重跑了镇江的部分客户,看了下通过率,信用模型就是信用模型,很难防住欺诈2、修改了个小BUG3、下午研究了gbdt+lr的模型,读了facebook的论文3.1的章节,这个章节是论文的核心部分,讲了是怎样通过GBDT把实值特征变量转换成bool特征变量,每一个叶节点就是一条rule,也就是一个特征,然后怎么去选取这些高阶特征论文没有细说了,而是给出了gbdt+lr的对于NE的提升,相对G

2017-02-21 11:47:49 2865 1

原创 2017.02.17回顾 normalized entropy Calibration

1、下午读了facebook CTR模型的论文,里面的第二章,主要讲实验设置方面的内容,评价指标的选择,涉及到两个,第一个是NE,normalized entropy,分子实际上就是logistic regression的损失函数,分母就是平均的损失,平均的损失实际上就等于整个数据集的entropy,所以叫normalized entropy,这种是消除了不平衡数据集的影响,第二个评价指标是Cal

2017-02-20 10:29:01 4070

原创 2016.02.16回顾 决策树后剪枝

1、上线同盾多头策略,修改同盾逾期为根绝nationalId检索,思考了一下怎么样才比较好过渡到customerId2、下午研究cart树,主要温习了之前的代码,研究了后剪枝技术,后剪枝技术,是用一个测试集去测试误差平方和,如果合并后误差平方和变小,就做合并处理,无论是后剪枝还是建树都用到了递归的程序设计思想,写出来没有几行,但含金量非常高,但是有一个细节,就是在算合并后的误差平方和的时候,两

2017-02-17 09:47:26 1250

原创 2016.02.15回顾

1、v6_gbdt写成了api,还是老套路,没什么新东西可以记录的2、研究了下《机器学习实战》中的cart树,后剪枝技术,照着书上写好了代码, 但是还需要回顾一下之前的代码并理解现在的代码3、处理了下风控系统504、502的问题,就是他系统的负载问题4、numpy.nonzero(a)这个方法是返回a(矩阵、二维数组)中非0元素的索引,a[nonzero(a)]去掉a中的所有0元素

2017-02-16 10:36:21 210

原创 2017.02.14回顾

昨天忙了一些自己私人的事情,到公司已经是中午12点过了,上午去做了婚姻登记,办事人员态度不好,不应该影响到我们自己的心情,要调节自己的心态,本来是大好的事情。来到公司,simon说了一下最新需要改动的地方,一个a和lp的比例的变化,一个是还是应该设置多头的cutoff,然后henry说了下他的构想,一个是black list后移,一个是对于之前在as和ts贷,现在在我们这里贷,怎么来设置回头客

2017-02-15 11:21:07 196

原创 2016总结

今天已经是大年初八了,我还没有对去年进行一个总结,无论是生活还是工作上!我应该放慢脚步,总结从前,2017年卯足劲,加油干,取得进步!落脚点主要是薪酬和发展上!更细化一下,途径就是加强自身技术,当然为人处事也需要加强!工作上,记得去年回来公司什么都没有,重新建系统,重新做模型,一切都是从无到有,从这个过程中,我也学习了很多,从不会到会,从了解到熟悉。记得去年的这个时候还没有放弃自己的网

2017-02-07 14:52:09 342 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除