自从今年6月份写了一篇概述性的文章,中间停了5个月,也没写出一篇关于机器学习的博客。要说理由,有很多很多。但感觉不是找理由的时候了,总之就是自己在学习上缺乏了那么一点持久的毅力,心态变得比在读书时候浮躁多了。工作和生活的各种杂事和压力,有时候也有应付不过来的时候。要想静心学习,确实是一件非常幸福的事情。也非常佩服很多能静心研究的人们,他们能够心无旁骛的在自己喜欢的领域自由的去探索去研究。
自己接触机器学习这个方向也有好几年了,开始接触机器学习是觉得很好奇的,很新鲜,那是08年的时候了。8年过去了,到现在对机器学习虽然比以前认识了很多,但是好奇心少了很多。机器学习这几年发展很快,光深度学习就最近吵的非常火,当然深度学习确实在很多应用上取得了让人触目惊心的成果。从开始的好奇到现在的熟悉,但是自己仍停留在很一般的水平,在IEEE上还是发不了自己的文章,在开源项目上没有自己的影子。虽然也看过很多牛人的文章和著名的书籍,但是看过后好像就忘了,不知道是不是过拟合造成的结果,是不是自己也过学习了,导致自己的泛化能力急剧下降,也就是自己面对实际机器学习问题,解决问题的能力下降了。看来书都多了、资料看多了,也会导致这个问题。自己深入分析这个原因,主要还是在于自己没有深入理解文献背后的本质问题,没有对机器学习相关技术的来源、前前后后等等进行深入的理解,很重要的一块是参与实践的项目太少,缺乏一定的实战经验。仔细想来,虽然看过不少资料,但是对很多资料和文献都是泛泛之读,没有深入去理解、去思考。这是一方面,另一方面,对实际业务的背景理解的也较少,记得参与过两个较大的数据挖掘项目,真正起关键作用的还是对场景和背景的深刻理解,这些方面没做好,应用数据挖掘或机器学习的技术,最后得到的效果并没有大家想象的那么好,也就是我们过于关注算法层面,而忽略了机器学习的另外一个重要层面-高质量的数据源。我想做过一些数据挖掘或机器学习的朋友都知道这个道理。也许我的一点浅浅的体会,不足挂齿。
要说机器学习也好,数据挖掘也罢,罗马不是一天建成的,像我等资质普通的人而言,更需要持续的努力才行,才有可能去深入的理解一个事物。机器学习领域现在的应用很广,其入门的书籍和资料也非常之多,自己看过一些,如机器学习导论、机器学习与模式识别(Bishop)、机器学习实战、集体智慧编程、数据挖掘导论、数据挖掘概念与技术、模式识别、深度学习(GoodFellow)等,也看过不少IEEE Trans、ICML、JMLR、NIPS、CVPR、PAMI等上面的文章。但是就像说的一样,看的过程是挺好的,好像看懂了他们的思想,但是自己推导一下自己实现一下就不是那么容易的,所以还是要自己多去编程实现一下去体会去理解,才能深入骨髓。这样自己的水平才会提高。当然,这些还不够,真正需要熟练掌握机器学习技术,还需要多参加实际的项目训练。可以从一些较好的数据竞赛开始。多参加实际项目,让自己尽快上手。
以上也是自己多年来的一点小小体会,希望能给大家带来一点点启发,也就足够了。也希望自己在这个领域真正深入理解起来,祝愿自己能够做出一点成绩。