就自身而言接触机器学习和数据挖掘这个行业也就短短的不到一年的时间,在基础数学上还是略显吃力,在这里也不班门弄斧,只是就自己看到的博客和学习的内容做个简单总结
下面内容引用至 机器学习与数据挖掘的学习路线图
预备知识
微积分(偏导数、梯度等等)、概率论与数理统计(例如极大似然估计、中央极限定理、大数法则等等)、最优化方法(比如梯度下降、牛顿-拉普什方法、变分法(欧拉-拉格朗日方程)、凸优化等等)
第一条线路
(基于普通最小二乘法的)简单线性回归 -> 线性回归中的新进展(岭回归和LASSO回归)->(此处可以插入Bagging和AdaBoost的内容)-> Logistic回归 ->支持向量机(SVM)->感知机学习->神经网络(初学者可先主要关注BP算法)-> 深度学习
第二条线路(PGM)
K-means -> EM -> 朴素贝叶斯 -> 贝叶斯网络 -> 隐马尔科夫模型(基本模型,前向算法,维特比算法,前向-后向算法) (->卡尔曼滤波)
工具篇
- 这里LZ肯定首选Python,主要究其原因还是因为开源的机器学习包比较多
- 在实际生产项目中自己还是偏Java多一点,这里推荐Weka,如果是做深度学习这一块可以参考DeepLearning4J
- 数据科学家做研究还是优选Matlab或者R语言
实战篇
优先推荐阿里举办的天池数据大赛
国外必不可少的Kaggle(这里有很好的入门文章和教程攻略)
书籍推荐
Pattern Recognition and Machine Learning
Machine Learning
机器学习实战
周志华刚出版的《机器学习》