1.监督学习,无监督学习
监督学习是一种机器学习方法,是指:利用一组已知类别的样本调整分类器的参数,使其达到所要求性能的过程,也称为监督训练或有教师学习。是一个由已知(已知类别的样本)推导未知(新的实例)的过程。
无监督学习也是一种机器学习方法,由于缺乏足够的先验知识,因此难以人工标注类别或进行人工类别标注的成本太高。很自然地,我们希望计算机能代我们完成这些工作,或至少提供一些帮助。根据类别未知(没有被标记)的训练样本解决模式识别中的各种问题,称之为无监督学习。可以说无监督学习是一个从未知(类别未知的训练样本)推导出已知(其中的对应关系)。
2.分类,回归
其本质是一样的,都是对输入值进行预测,并且都是监督学习。
二者的不同在于输出不同
分类是指将数据分成不同的类别或标签,它的输出是物体所属的类别。而回归是指对数据进行预测,以输出一个连续的数值,它的输出是物体的值。
例如我要预测明天的天气,分类是对过去几天的天气(例如周一晴,周二阴,周三多云等等)进行研究,来推导出明天的天气是晴还是多云。而回归则会对前几日的气温进行研究,来推导出明天的气温。
3.聚类,降维
聚类是指分别将具有相似的特征的数据分类成数个组,使得组内的数据相似度尽可能高,组间的数据相似度尽可能低。他的输出是多个数类中心点向量和一个模糊矩阵。使用案例包括细分客户、新闻聚类、文章推荐等
降维是一个去掉冗余的不重要的变量,而只留下主要的可以保持信息的变量的过程。输出是一组描述原数据的,低维度的隐式特征(或称主要特征)。用于消除噪声、对抗数据稀疏问题 ,进行数据压缩
4.损失函数
损失函数是将随机事件或其有关随机变量的取值映射为非负实数以表示该随机事件的“风险”或“损失”的函数。通常来说,损失函数越小,模型的预测结果就越接近真实结果。在应用中,损失函数通常作为学习准则与优化问题相联系,即通过最小化损失函数求解和评估模型。
5.训练集、测试集和验证集
训练集:用于训练模型以及确定参数。相当于学习知识。
验证集:用于确定网络结构以及调整模型的超参数。相当于课后测验检测学习效果并且查漏补缺
测试集:用于检验模型的泛化能力。是期末考试评估这个模型到底怎样。
6.过拟合,欠拟合
过拟合是指为了得到一致假设而使假设变得过度严格。避免过拟合是分类器设计中的一个核心任务。例如只认为枫树叶属于树叶,而柳树叶不属于树叶。
通常的解决方法有选取合适的停止训练标准,使对机器的训练在合适的程度;保留验证数据集,对训练成果进行验证;获取额外数据进行交叉验证;正则化。
欠拟合是指模型拟合程度不高,数据距离拟合曲线较远,或指模型没有很好地捕捉到数据特征,不能够很好地拟合数据。例如认为枫树叶属于树叶,而整棵枫树也认为属于树叶。
常见的解决方法有增加新特征;添加多项式特征;减少正则化参数;使用非线性模型调整模型的容量。
7.经验风险,期望风险
对于某个样本,其真实的标签为,我们用模型来估计, 其中是模型的参数。则:
经验风险是指模型在整个训练数据集上的误差的均值。通常来说,经验风险越小,表示模型在训练集上的表现越好。
期望风险指的是模型模型在所有可能出现的样本(包括训练集,测试集和其它未采集的样本)上的误差的均值。通常来说,期望风险越小,表示模型的泛化能力越强,即能够更好地适应新数据。
其中,表示所有可能出现的样本及其标签的联合概率分布。