理论知识
我推荐的是Coursera的课程,好好看它的讲义和例程,对ML的原理会有一定的认识。面试的时候考察的一般就是原理性的东西。具体直接搜ML就有,旁听免费。
实际工具
工具链这块,我觉得必须学的就是numpy,pandas,scikit-learn,但是肯定不止这些,这些是要求比较高的。其他很多模型和库,用的时候看看官网文档就行。推荐用Jupyter Notebook, 及时输出,用起来很方便。直接装个anaconda就可以一键安装JN。
教程推荐官方的,官方也强调这可能是最快速的路了。
https://www.kaggle.com/learn/overview
训练赛教程
这几个真的是手把手教,特别详细。推荐都过一遍,可以少很多入门的迷惑。
\1. Titanic(泰坦尼克之灾)
中文教程: 逻辑回归应用之Kaggle泰坦尼克之灾 (点击查看)
英文教程: An Interactive Data Science Tutorial (点击查看)
\2. House Prices: Advanced Regression Techniques(房价预测)
中文教程: Kaggle竞赛 — 2017年房价预测 (点击查看)
英文教程: How to get to TOP 25% with Simple Model using sklearn (点击查看)
\3. Digital Recognition(数字识别)
中文教程: 大数据竞赛平台—Kaggle 入门 (点击查看)
英文教程: Interactive Intro to Dimensionality Reduction (点击查看)