logistic
strwolf
这个作者很懒,什么都没留下…
展开
-
logistic结果各个维度可视化 py更新为什么pyc没更新 2016.05.23回顾
1、加上了lptrigger,但是生产环境似乎还需要继续调试, 难道需要重启?还是py更新了,pyc没有跟着更新? 2、下午又开始玩echarts,想进一步完善可视化,开始的想法是在雷达图上,但是经过几个小时的探索,我发现并不能把每个维度的得分(woe或者其他可表征该维得分的值)画成雷达图,感觉雷达图的维度权重是相同的,尺度范围也是相同,这种比较好画雷达图,逻辑斯蒂画标准雷达图似乎不太可能,我没找原创 2016-05-24 10:04:00 · 747 阅读 · 0 评论 -
2017.02.24回顾 logistic 1 -1 定义
1、去学习了一下,用1和-1编码的logistic regression的损失函数,gbdt论文中提到的损失函数,是单个样本点的,其次要令y* = 2y - 1把0,1映射到-1,1,定义p的时候多一个2倍,即p = 1/(1+exp(-2f)),把这两部分带入log似然函数就可以得到-1,1定义下的损失函数,log(1+exp(-2yf)),其实推导过程我是没看懂的,这个y我不知道是怎么拿进原创 2017-02-27 12:09:07 · 1081 阅读 · 0 评论 -
2017.03.16回顾 线性代数 最小二乘 pdo 3C
1、研究了线性模型,写出损失函数,然后求导就给自己卡了一下午,我不知道矩阵该怎么求导,方法就是所谓的最小二乘,在解决这个问题的过程中,我也温故了一下数学知识。向量内积:又称向量点积(dot product),两个向量相乘得到一个标量,在二维和三维空间的几何意义是,两个向量模长乘以夹角的余弦,ab = ︱a︱︱b︱cosθ 向量外积:又称向量叉积,两个向量相乘得到一个向量,向量的模等于︱原创 2017-03-17 17:58:59 · 368 阅读 · 0 评论 -
2016.12.05回顾 logistic自变量是分类变量
1、又看了下joinquant,按财务指标选股的时候不加filler似乎可以挑选出全部A股的股,但是奇怪的是有个停牌(或者说已经退市的)出现在了名单之中(300372欣泰电气),是12月2号的数据,然后看了下小市值策略的代码,有两个做记录的成员变量,我不太清楚其意义何在?然后回测的持仓数据来看,可能存在一定的幸存者偏差,几乎之前的全是st股,然后我又用他所谓的40000%的去除st,去除停牌那个策原创 2016-12-06 13:55:16 · 2309 阅读 · 0 评论 -
2016.12.02回顾 logistic问题 lift curve绘制 excel分位数 excel指数
1、上周五我想的第一个问题是分类变量不通过woe编码,直接数字编码来拟合logistic,但是怎么来确定这个数字呢?比如一个三类变量,可以是1、2、3,也可以是1、20000、30000,我搜了下没有找到解答,我没有想到这个问题的解答,我记得以前二分类变量直接是编码成1和0进行logistic回归2、excel求分位数,percentile(A,B),A参数是范围,B是多少分位3、exce原创 2016-12-05 10:25:59 · 1471 阅读 · 0 评论 -
2016.11.30回顾
1、 把qh分数加进去做分析,要下班的时候又加进去了审批结果,初步尝试统计多头借贷不同审批方案的拒绝比率2、初步看了下joinquant,感觉做的比uqer要好,准备写一个简单的持仓最小市值,按一定时间换仓的策略3、然后对于变量之间的交叉影响做了一些分析,在统计学上应该叫分层分析,就是说一个变量X对于Y不显著,但是有可能存在一个因素,X在Z上分层,每一个分层就变得很显著了,这种变量间的交互原创 2016-12-01 09:56:06 · 234 阅读 · 0 评论 -
gini系数 lift指标 ROC AIC 2016.08.01回顾
1、上午主要研究了gini系数的算法,关键点就是用梯形面积去近似曲线形成的面积,横轴是按照降序排列或升序排列的人,纵轴是bad rate,把bad rate的坐标的两两连接起来就可以得到若干梯形,计算这些梯形的面积之和,近似等于洛伦茨曲线下面积,升序或是降序确定了,梯形在洛伦茨曲线之上还是之下,但是阴影面积是不变的,阴影面积除以0.5(的面积)就是gini系数,但是tony用的并不是0.5,ton原创 2016-08-03 10:26:11 · 3966 阅读 · 0 评论 -
R语言GLM包相关问题 PHP数组定义及比较 git pull 2016.08.04回顾
1、上午排查了风控系统的问题,重新计算金额和重跑模型需要整合!前端已经限制多次点击重跑模型按钮!模型的SQL同时跑有可能会出现,找不到某个表的错误,因为调用表的时候,表可能被另外正在跑的SQL给DROP掉了,恰好会出现SQL找不到表错误!搞清楚了调用次序是re_model->lptrigger_fraud->model,传征信的调用顺序是parse->lptrigger_fraud->model。原创 2016-08-05 10:39:05 · 1684 阅读 · 0 评论 -
一种独特的logistic定义 lift logistic变量选择法 2016.07.29回顾
1、上午解决了为什么weka和R拟合出来的系数不一样,R拟合出来的系数是weka拟合出来系数的2倍,后来问了博士,经讨论才知道,还有一种logistic的定义是-1和1的定义,那种的link函数,恰好是e的2z次方,所以说系数存在一个2倍关系,至于具体对于损失函数和系数迭代公式产生的影响我还有待继续研究一下,现在只是明白了weka的simplelogistic算法应该是用的2z的定义,我后来又用自原创 2016-07-29 17:43:10 · 691 阅读 · 0 评论 -
初步建模 2016.07.28回顾
1、上午完善了所有单变量的分析,缺失值替换等数据准备和预处理工作2、下午用weka的logistic算法跑了下,下班的时候又用R跑了下,居然发现系数不一样,R是weka的2倍关系,weka预处理不能直接把numeric的class变量转换成binary,binary变量一转换就是全部转换,应该用numeric转换成nominal,选择last列就可以了3、但是昨天用的建模方法都是单变量分析原创 2016-07-29 09:55:39 · 351 阅读 · 0 评论 -
logistic转换成标准评分卡
昨天痛定思痛,思考了一下,有时候干一个事情呢其实是不需要深入到数学细节的,有时候记住结论就可以了,另外的事情是数学家的事情,所以我开始转换思路,开始直接看评分卡模型的相关资料,直接从终点出发,有不懂的再回溯,我觉得这个学习方法还比较适合自己,我称为就是干(just do it)的方法,边打仗边学习,没必要找本书开始看基础理论(需要艰深的数学知识,进展太过缓慢)。 昨天学习评分卡的设计流程概要,其中原创 2016-06-03 09:32:51 · 22263 阅读 · 4 评论 -
2017.06.06回顾 三种构造dataframe的方法 多重共线性开坑
1、和星期一上午一样的问题,就是精神不好,打瞌睡,我后面的主要工作就是把注册信息变量提取整理做到建模表中,上午还日常看了下股票,亏得他妈一塌糊涂2、下午一来就是继续v7的开发,关于上一个工作日的两个list合成dataframe的方法,我觉得是存在问题,感觉到太繁琐了,我于是查了下资料,我震惊了,原来那么简单,我并且根据这个总结了三种不同的构造dataframe的方法#三种构造datafr原创 2017-06-07 10:43:59 · 2147 阅读 · 0 评论