在一个有监督的学习任务中,数据样本将包含一个目标属性 y,也就是所谓的真值。
无监督学习指没有明确的目标的学习,例如聚类和关联。
在数据集很大,但标记样本很少的情况下,可以找到同时具备有监督和无监督学习的应用。我们可以将这样的任务称为半监督学习
人们想要预测图像的分类,但只对图像的 10%进行了标记。通过有监督的学习,我们用有标记的数据训练一个模型,然后用该模型来预测未标记的数据,但是我们很难相信这个模型是足够普遍的,毕竟我们只用少量的数据就完成了学习。一种更好的策略是首先将图像聚类成组(无监督学习),然后对每个组分别应用有监督的学习算法。第一阶段的无监督学习可以帮助我们缩小学习的范围,第二阶段的有监督学习可以获得更好的精度。
其中元组中的每个元素要么是数值,要么是表示其属性之一的分类值。在许多情况下,这些元素也被称为 “特征”
一些机器学习模型(例如决策树)可以直接处理非数字特征,而更多时候人们必须以某种方式将这些非数字特征转换为数字特征
分类和回归可以相互转化,例如房价的划分以及猫的概率
逻辑回归(Logistic Regression)的机器学习模型,这种模型将连续概率值作为输出,但用于解决分类问题。
机器学习工作流的最终目标是建立机器学习模型。我们从数据中得到模型。因此,模型所能达到的性能上限是由数据决定的。
训练数据的模型不一定能完美匹配测试数据的原因:
1.所选取的训练数