我的第一篇写机器学习的博客
目前水平:只是花了三个星期把统计学习方法看完推导了一遍
目的:仅仅是想着熟悉一下统计学习方法中算法的用处,了解机器学习的一些比赛,更好的明白学习的方向
结果:熟悉了数据的处理与分析流程,如何分离特征,但是关于调参数及优化这块没学习到
感想:理论和实践还是差距很大的,明显自己完成这些比赛还需要一些过渡,否则很难往前走;需要看机器学习的一些实战的书
kaggle官网的competitions部分的的getting started版块的Titanic问题
见:https://www.kaggle.com/c/titanic
完全参见:http://blog.csdn.net/han_xiaoyang/article/details/49797143
其中使用到sklearn库,见文档:http://scikit-learn.org/stable/
sklearn的基本使用见http://blog.jobbole.com/92021/
在最后关于各种方法的融合中,我参见的是http://blog.jobbole.com/92021/,只是简单的调用,把这些方法预测的y值求和,取大于一半的值为1,否则为0
但是综合预测的结果并没有单个较好的预测结果要好,不知道怎么回事,可能没调参或者是求和方式不对???
就这些了,好好看这个博客吧http://blog.csdn.net/han_xiaoyang/article/details/49797143
关于数据挖掘的十大算法:http://rodin.cs.uh.edu/~ceick/ML/DM_Top10.pdf