1.监督学习:在监督学习中,计算机通过示例学习。它从过去的数据中学习,并将学习的结果应用到当前的数据中,以预测未来的事件。在这种情况下,输入和期望的输出数据都有助于预测未来事件。
无监督学习:无监督学习是训练机器使用既未分类也未标记的数据的方法。这意味着无法提供训练数据,机器只能自行学习。机器必须能够对数据进行分类,而无需事先提供任何有关数据的信息。
2.分类:监督学习的一种,对输入做出预测,输出物体所属的类别,输出的值是离散的,定性的。只有一种结果。
回归:监督学习的一种,对输入做出预测,输出物体的值,输出的值是连续的,定量的。可能有多重预测值,误差越小结果越好
3.聚类:在没有训练的条件下,对一些没有标签的数据进行归纳分类。根据相似性对数据进行分组,以便对数据进行概括。
降维:降维是试图压缩维度,并尽可能地保留分布信息。我们可以将其视为数据压缩,或者特征选择。
4.损失函数:每一个样本经过模型后会得到一个预测值,然后得到的预测值和真实值的差值就成为损失,损失函数本质上就是计算预测值和真实值的差距的一类型函数,然后经过库的封装形成了损失函数
5.训练集:训练集用来训练模型,即确定模型的权重和偏置这些参数,通常我们称这些参数为学习参数
验证集:而验证集用于模型的选择,验证集并不参与学习参数的确定,也就是验证集并没有参与梯度下降的过程。
测试集:测试集只使用一次,即在训练完成后评价最终的模型时使用。它既不参与学习参数过程,也不参数超参数选择过程,而仅仅使用于模型的评价。
6.过拟合:当学习器把训练样本学的“太好”了的时候,很可能已经把训练样本自身的一些特点当作了所有潜在样本都会具有的一般性质,这样就会导致泛化性能下降。
欠拟合:指对训练样本的一般性质尚未学好。在训练集及测试集上的表现都不好。
7.经验风险:训练集上的平均损失
期望风险:表示的是决策函数对所有的样本<X,Y>预测能力的大小,平均意义下的代价损失