2016.12.05回顾 logistic自变量是分类变量

版权声明:本文为博主原创文章,遵循 CC 4.0 by-sa 版权协议,转载请附上原文出处链接和本声明。
本文链接:https://blog.csdn.net/strwolf/article/details/53482870

1、又看了下joinquant,按财务指标选股的时候不加filler似乎可以挑选出全部A股的股,但是奇怪的是有个停牌(或者说已经退市的)出现在了名单之中(300372欣泰电气),是12月2号的数据,然后看了下小市值策略的代码,有两个做记录的成员变量,我不太清楚其意义何在?然后回测的持仓数据来看,可能存在一定的幸存者偏差,几乎之前的全是st股,然后我又用他所谓的40000%的去除st,去除停牌那个策略,回测太高了,高达70%+,根本不敢用啊!我要继续熟悉下joinquant的回测框架,确保回测结果是正确的。

2、然后下午主要就是重新建模加部署,写SQL,SQL过程中没有什么值得记录的地方,然后临近下班的时候开始弄一个问题就是如果不用woe,logistic自变量中的分类变量该怎么办,和博士讨论了下,自己也去查了下,一种普遍的说法是转换成哑变量,3类就是两个自变量,还有待进一步研究,可能虽然说我对于信用评分领域比较熟悉了,但是算法本身和应用场景我还不能称得上精通!



展开阅读全文

关于mahout分类logistic算法)的实践

04-06

关于mahout的概念或者分类的概念,请参考 http://ices01.sinaapp.com/?cat=13 专题rnrn4月1日开始一直开始准备采集分类算法学习的数据,现在已经采集了13万多条。并且做了实践。rnrn rn准备训练样本数据rnhttp://dl.vmall.com/c0t2stwgs6rn准备测试样本数据rnhttp://dl.vmall.com/c0bqyvvsvzrn开始工作:rn创建modelrn./mahout trainlogistic –input ~/sniffer.csv –output ~/sniffer_model –target CABINSTATUS –categories 2 –predictors SUBMITTOFLIGHT CABINVALUE OPENSIZEMAX BOOKSIZEMAX SUPRISEDATEVALUE –types numeric word numeric numeric word –features 1000 –passes 100 –rate 100rn结果如下:rnCABINSTATUS ~ -3.903*BOOKSIZEMAX + -21.278*CABINVALUE=B + -525.060*CABINVALUE=C + -142.396*CABINVALUE=E + 510.136*CABINVALUE=F + 1.575*CABINVALUE=H + 0.793*CABINVALUE=K + -3.148*CABINVALUE=L + 0.063*CABINVALUE=M + -22.743*CABINVALUE=Q + -359.977*CABINVALUE=R + 57.664*CABINVALUE=U + -13.304*CABINVALUE=X + 521.823*CABINVALUE=Y + -0.124*Intercept Term + 11.577*OPENSIZEMAX + -1.658*SUBMITTOFLIGHT + 1.889*SUPRISEDATEVALUE=NORMAL + -4.491*SUPRISEDATEVALUE=QINGMING + -2.710*SUPRISEDATEVALUE=WUYIJIErn BOOKSIZEMAX -3.90338rn CABINVALUE=B -21.27764rn CABINVALUE=C -525.05977rn CABINVALUE=E -142.39577rn CABINVALUE=F 510.13636rn CABINVALUE=H 1.57494rn CABINVALUE=K 0.79265rn CABINVALUE=L -3.14779rn CABINVALUE=M 0.06252rn CABINVALUE=Q -22.74316rn CABINVALUE=R -359.97720rn CABINVALUE=U 57.66431rn CABINVALUE=X -13.30351rn CABINVALUE=Y 521.82344rn Intercept Term -0.12375rn OPENSIZEMAX 11.57650rn SUBMITTOFLIGHT -1.65824rnSUPRISEDATEVALUE=NORMAL 1.88903rnSUPRISEDATEVALUE=QINGMING -4.49111rnSUPRISEDATEVALUE=WUYIJIE -2.71033rn rn13/04/06 09:54:29 INFO driver.MahoutDriver: Program took 203150 ms (Minutes: 3.3858333333333333)rnps:这里需要注意,csv文件的第一行需要是每行的标题,上面命令行中的字段必须跟csv第一行的标题相同,并区分大小写。rn验证模型:rn./mahout runlogistic –input ~/sniffer_test.csv –model ~/sniffer_model –auc –confusionrnRunning on hadoop, using /opt/hadoop/hadoop/hadoop-1.0.4/bin/hadoop and HADOOP_CONF_DIR=rnMAHOUT-JOB: /opt/hadoop/mahout-distribution-0.7/mahout-examples-0.7-job.jarrnWarning: $HADOOP_HOME is deprecated.rnAUC = 0.92 【预测的正确率】rnconfusion: [[553.0, 46.0], [134.0, 787.0]]rnentropy: [[NaN, NaN], [-37.9, -1.4]]rnPS:AUC达到0.92还是比较理想的,根据不同的预测变量的组合,或得到不同的AUC。所以,选择合适的预测变量还是非常重要的。 论坛

高阶与分类变量实例

03-11

<p>rn <span> </span> rn</p>rn<p>rn <br />rn</p>rn<p>rn 20周年限定:唐宇迪老师一卡通!<span style="color:#337FE5;">可学唐宇迪博士全部课程</span>,仅售799元(原价10374元),<span style="color:#E53333;">还送漫威正版授权机械键盘+CSDN 20周年限量版T恤+智能编程助手!</span> rn</p>rn<p>rn 点此链接购买:rn</p>rn<table>rn <tbody>rn <tr>rn <td>rn <span style="color:#337FE5;"><a href="https://edu.csdn.net/topic/teachercard?utm_source=jsk20xqy" target="_blank">https://edu.csdn.net/topic/teachercard?utm_source=jsk20xqy</a><br />rn</span> rn </td>rn </tr>rn </tbody>rn</table>rn<span>&nbsp;</span> rn<p>rn <br />rn</p>rn购买课程后,可扫码进入学习群<span style="font-family:&quot;">,获取唐宇迪老师答疑</span> rn<p>rn <img src="https://img-bss.csdn.net/201908070600357090.jpg" alt="" /> rn</p>rn<p>rn Python数据分析(统计分析)视频培训课程概述:Python统计分析系列课程以Python爬虫为核心工具,结合其工具包进行统计分析实验。课程内容包括数据科学必备的几种分布、统计描述、假设检验、方差分析、相关分析、因子分析、回归分析、聚类分析、逻辑回归、贝叶斯分析等Python数据分析内容,系统全面。从统计分析基础开始讲起,一步步完成整个统计分析系列内容。课程以案例为中心,结合案例讲解让同学们更清晰的掌握每一个知识点的应用与工作流程。rn</p>

没有更多推荐了,返回首页