机器学习算法主要分为以下四类:
监督学习、非监督学习、半监督学习和增强学习
监督学习
方法:分类任务、回归任务
给机器的训练数据拥有“标记”或者“答案”。常见的分类任务中,每个样本都有标记。
白话版解释:给人类已经分类好的数据进行机器训练。
PS:本系列内容主要研究监督学习。
非监督学习
给机器的训练数据没有“标记”或者“答案”,与监督学习概念相反。
方法:
1、对没有“标记”的数据进行分类,叫做聚类分析;比如电商网站中,对消费者的消费行为、偏好进行分类。
2、数据的降维处理:
(1)特征提取:去掉与目标问题不相关的样本特征。
(2)特征压缩:PCA算法,不去掉特征,将关联性较强的特征进行压缩
意义:方便可视化、异常检测
半监督学习
给机器的训练数据一部分没有“标记”或者“答案”,另一部分有。
产生原因:各种原因产生的标记缺失
方法:先用无监督学习进行数据处理,然后再用监督学习手段做模型的训练和预测。
增强学习
根据周围环境的情况,采取行动,根据采取行动的结果,学习行动方式。
适用于:机器人,如围棋机器人、美剧《西部世界》中的人工智能。属于强智能发展范畴。