随想 == 随意在想,随时在想,随时更新。
写这个机器学习blog的原因:
1). 根据从前的经验,学习过的东西,要总结以及书面化,才会印象更加深刻。所以,第一个原因是自己别忘了并且加深理解和加深印象。
2). 万一有哪个小白需要入门,万一凑巧搜到了这个地方,可以给一个简洁的入门帮助。所以第二个原因是为了方便别人。
目标:
1). 我不是数学家,不是科学家,也不是搞研究的,也不准备涉足这方面。我是工程师,做技术的,做项目的。所以,blog内容不会涉及到任何的公式和推导,顶多有几个结论性的公式,为了备忘。关注的是如何把整个机器学习贯穿起来,理解每一个方面的现象和本质,如何使用。
2). 如上,另外假设:做研究的不如我的编程技术好,做编程的不如我的机器学习理论强。所以,我不会去深入的研究算法,改进算法甚至自己创造算法(话说我又不是科学家),而是会在机器学习的实践上做100%的努力。而这个实践,是以 python加上一些著名的机器学习库,比如sci-kit learn, scipy, numpy, matplotlib, pandas,尤其是sci-kit learn,在每一个机器学习的算法介绍中,都会强调他的sci-kit learn版本:基本原理以及如何使用,如何调优。
3). 需要加上大数据的平台,比如hadoop,spark,以及No-SQL以及数据的可视化等数据挖掘相关的知识扩展。
形式:
1). 总体上有一个主要的索引,是以一句话说明关键点的方式体现的。
2). 每一个主题(每个算法,比如knn, kmeans,每个主要方面,比如凸优化的常用算法,常用的kernel function核函数等),都会有专门的文章来解释。文章的结构是:是什么,有类似算法的比较,应用场景和限制,实践(sci-kit learn库)上的应用,各种链接。
3). 好书、好网站、好库汇总,肯定是转载为主了。