文章目录
一、综述
学习入门机器学习经典算法(KNN、线性回归、多项式回归、逻辑回归、模型正则化、PCA、SVM、决策树、随即森林、集成学习、模型选择、模型调整)与应用;
学习如何使用算法,如何评价算法的好坏,如何解决过拟合和欠拟合,如何调节算法的参数,如何验证算法的正确性;
学习环境:
1、语言:python3;
2、框架:Scikit-learn;
3、其他:numpy,matplotlib…
二、机器学习方法的分类
机器学习方法的分类(从机器算法本身进行分类):
1、监督学习;
监督学习是指给机器的训练数据拥有“标记”或者“答案”;主要处理两大类问题分别是分类问题和回归问题;(大部分算法都属于监督算法)
2、非监督学习;
非监督学习的训练数据没有任何“标记”或者“答案”;对没有“标记”的数据进行分类-聚类分析;非监督学习的意义:对数据进行降维处理 ,特征提取:信用卡的信用评级和人胖瘦无关?特征压缩:PCA;降维处理的意义:方便可视化或者异常检测;
3、半监督学习;
半监督学习:面对的数据集一部分有“标记”或者“答案”,另一部分数据没有;更常见:各种原因产生的标记缺失;对于半监督学习来说我们都可以先使用无监督学习手段对数据进行处理,之后使用监督学习手段做模型的训练和预测
4、增强学习;
增强学习:根据周围环境的情况(反馈),采取行动,根据采取行动的结果,学习行动方式。
三、机器学习方法分类
1.在线学习Online Learing;
2、批量学习(离线学习)Batch Learing;
批量学习:如图所示,模型一旦建立不再改动;
优点:简单;
问题:如何适应环境变化?
解决方案:定时重新批量学习;
缺点:每次重新批量学习,运算量巨大;
另外在某些环境变化非常快的情况下,甚至这个解决方案的实现已然不可能;
3、参数学习;
参数学习:结果时刻向前反馈,机器学习算法时刻改进,模型也时刻改进;
优点:可以及时反映新环境的变化;
问题:新的数据有可能带来不正确或者不好的变化;
4、非参数学习;
非参数学习:不对模型进行过多的假设,非参数学习不等于没有参数,只是不把问题当成一个建模,不把整个问题理解成学习一些参数,但是在学习过程中仍然是需要参数的参与;
5、参数学习:
一旦学到了参数,就不再需要原有的数据集;对模型进行统计上的假设;