监督与无监督
机器学习主要包括监督学习,无监督学习,强化学习;
监督学习是指从标注数据中学习预测模型的机器学习问题。相反的,无监督学习是指从无标注数据中学习预测模型的机器学习问题;
监督学习:分类和回归
对于监督学习,如果标注是连续型数据,则问题属于回归问题;如果标注是离散型数据,则问题属于分类问题;
连续和离散的判定标准是取值是否有限,取值有限的是离散型变量,取值无限的是连续型变量;
无监督学习:聚类与降维
无监督学习的应用主要有两个方面:样本聚类和特征降维;比如以下例子:

注意
分类问题和聚类问题的本质区别在于:分类属于监督学习的范畴,而聚类属于无监督学习的范畴
泛化能力
在模型训练的过程中,模型的预测输出值不断地拟合与逼近真实值,这是模型训练的目标和使命;训练模型的目的并不是为了预测已知的训练数据,而是要预测未知数据,让模型在未知数据上取得良好的预测效果;模型在未知数据上的预测效果越好,说明它的泛化能力越强。但如果一味地拟合训练数据,就会导致模型过拟合;过拟合的反面是欠拟合,也就是模型对训练数据的拟合程度不够,导致在训练数据上的误差较大,这种情况下模型在测试数据上的表现一般也不好;
下面用一个回归问题反映3种不同模型的泛化能力:

对于一个分类问题,模型的泛化能力简单描述为(不同的颜色代表不同的类别):

泛化性与鲁棒性
鲁棒性是控制论中的词语,主要是指在某些参数略微改变时,系统仍然具有稳定性和有效性;(关于模型参数的鲁棒性)
如果模型具有鲁棒性,则当我们微调其参数时,也可以确保模型性能不会产生过度的变化;
模型的鲁棒性也包括输入数据的微小改变:对输入信号增加微小的噪声,模型性能不会出现太大偏差;(关于输入信号的鲁棒)
泛化性是指根据有限样本训练的系统,对其他变量域也具有良好的预测能力,此处注意,其他变量域通常要求和训练样本具有近似的分布。
参数与超参数
模型参数是可学习的,比如一次线性函数的斜率和截距;
模型的超参数是人为设定的,比如迭代次数epochs,即:模型在整个训练集上重复训练的次数。

被折叠的 条评论
为什么被折叠?



