这本机器学习实战,年前也曾经看过并实现了其中几章的内容,但不够系统,打算趁这个暑假,再系统的过上一遍,并做好笔记。
1.机器学习能让我们自数据集中受到启发,即我们会利用计算机来彰显数据背后的真实含义。经典应用领域:人脸识别、手写数字识别、垃圾邮件过滤、购物网站产品推荐。机器学习是一个把无序的数据转换成有用信息的过程。
2.监督学习:数据有类别信息和给定的目标值。在监督学习中,如果其主要任务是将实例数据划分到合适的分类中,称为分类;如果其主要用于预测数值型数据,称为回归。
无监督学习:此时数据没有类别信息、也不会给定目标值。在无监督学习中,如果数据集合是由多个类似的对象组成的话,称为聚类;如果是寻找描述数据统计值的过程,则称为密度估计。
3.常见的监督学习算法:KNN(K近邻算法)、LR(线性回归)、Naïve Bayesian(朴素贝叶斯)、局部加权线性回归、SVM(支持向量机)、Ridge回归、决策树、Lasso最小回归系数估计等。
常见的无监督学习算法:K-means(K均值)、EM(最大期望算法)、DBSCAN等。
4.如何选择合适的算法?
(1)首选考虑使用机器学习算法的目的。
(2)其次需要了解数据的特性。
5.开发机器学习应用程序的步骤:
(1)收集数据。
(2)准备输入数据。
(3)分析输入数据。
(4)训练算法。
(5)测试算法。
(6)将算法应用到实际场景中。