Jupyter Notebook, numpy和matplotlib
学习和机器学习相关的基础工具的使用:Jupyter Notebook, numpy和matplotlib。
最基础的分类算法-k近邻算法 KNN
学习k近邻算法的原理,对训练数据集,测试数据集,分类准确度,超参数,数据归一化,样本距离等基础概念。详细了解scikit-learn框架中对算法的封装,并实现我们自己的算法框架。
线性回归法
线性回归法是机器学习领域的经典算法,很多更复杂的算法都是以线性回归为基础的。深入学习线性回归法背后的原理,同时仔细探讨如何评价回归算法。将对MSE,RMSE,MAE和R Squared等回归问题的评价指标有充分的理解。在实现层面上,学习机器学习领域的一个重要的实现技巧:向量化。
梯度下降法
梯度下降法是在机器学习领域的一个重要的搜索策略。学习解梯度下降法的基本原理,改进梯度下降算法,理解梯度下降法中各种参数,
PCA与梯度上升法
使用梯度下降法的姊妹方法:梯度上升法来求解PCA问题,进而深刻理解PCA的基本原理,使用PCA进行数据的降维。PCA降维,PCA在降噪,人脸识别 的应用
多项式回归与模型泛化
接触非线性问题,学习多项式回归的思想,使用线性回归的思路来解决非线性问题,模型泛化问题,欠拟合,过拟合,检测欠拟合和过拟合。交叉验证,模型正则化,Ridge和Lasso。
逻辑回归
逻辑回归是机器学习领域最常用的分类算法,应用线性回归来解决分类问题,完善逻辑回归模型,学习对分类结果概率的估计,以及决策边界等重要概念。
评价分类结果
对机器学习分类算法结果进行评估,学习混淆矩阵,准确率,精确率,召回率,F1,以及ROC等诸多评价分类结果的指标,更好地理解自己的机器学习算法给出的结果,从而在实际应用。
支撑向量机 SVM
从线性SVM开始,理解SVM的思路,深入理解SVM解决非线性问题的方式——核函数。重点学习两个最重要的核函数:多项式核和径向基函数核,使用真实的数据集实验,看到SVM的优缺点。
决策树
深入了解什么是熵模型,什么是基尼系数,怎样使用决策树解决分类问题,怎样获得分类的概率,怎样用决策树解决回归问题,以及使用决策树的注意事项。
集成学习和随机森林
集成学习的思想是机器学习领域解决问题的一种重要思想。集成学习的经典算法:随机森林。其他集成学习算法:AdaBoost, Gradient Boosting, Stacking等
Scikit-learn 是一个紧密结合Python科学计算库(Numpy、Scipy、matplotlib),集成经典机器学习算法的Python模块。 特别重要