机器学习算法的预测结果是目标变量,目标变量有两种:标称型和连续型
标称型:在有限的数据中取值,分类算法中的目标变量就是标称型的
连续型:在无限的数据中取值,回归算法中的目标变量就是连续型的
监督学习:训练集中的每个样本都有特征和目标变量,机器学习根据样本预测。监督学习分为两类:
(1)分类算法:将实例数据划分到合适的分类中
(2)回归算法:例:数据拟合曲线,通过给定数据点的最优拟合曲线,可用于房价预测
无监督学习:训练集中的样本有特征,没有目标变量。无监督学习分为两类:
(1)聚类算法:将数据划分成离散组,如Google新闻根据数据的结构不同将新闻划分为财经,娱乐等类别
(2)密度估计算法:估计数据与每组的相似程度