1.监督学习,无监督学习
监督学习和无监督学习都属于机器学习,监督学习中数据有标签,运用分类、回归,是通过已知的数据进行学习。
无监督学习无标签,但是有聚类降维,是对未知的数据进行学习,寻找相关进行聚类学习。
2.分类,回归
分类和回归是监督学习的两个属性。
分类:分类是给不同的数据上标签,以便机器更好的学习。例如将一组照片进行分类,分为人、汽车、食品等等、
回归:回归将数据整合从离散到连续输出,实现对数据的预测。例如对一定时间的温度进行收集统计,然后进行预测之后的温度变化等等。
3.聚类、降维
聚类和降维是无监督学习的两个属性。
聚类:聚类将数据分成组,将有相同属性或相似的数据分为同一组。例如狗、猫和马之类的都分为动物组。
降维:降维是指将高维数据降维,并且尽力保留原数据信息,来降低问题复杂度,简化问题。例如将三维的立体色素分析降维二维图分析。
4.损失函数
损失函数使用于机械学习是衡量测试结果与现实值之间差距的一种函数。通常在训练机械学习模型时,通过损失函数来进行衡量模型好坏,当损失函数越小时,说明模型的性能越好,与真实值越接。
5. 训练集、测试集、验证集
训练集、测试集和验证集都是用来评估机械学习模型性能的数据集。
训练集:用于训练模型的数据集。通常用大量标记数据对模型进行训练,模型通过对数据的大量迭代实现对数据的预测。
测试集:用于评估模型性能的数据集。在大量学习之后用测试集对模型进行测试,在测试集上对模型及逆行评估,得出模型的真实性能,并防止过度拟合。
验证集:用于调整模型参数的数据集。训练集和测试集取于相同的数据集中,而验证集最后才使用在最后对模型进行验证。
6.过拟合、欠拟合
过拟合和欠拟合是机械学习中的两种常见的问题。
过拟合:是指模型过于复杂,过度重视细节导致对于常规数据的测试表现很差。过拟合可能是训练数据不足,或者模型过于复杂导致的。
欠拟合:是指模型过于简单,不能充分学习训练数据的特征容易出现误判。欠拟合可能是因为模型过于简单导致的。
7.经验风险、期望风险
经验学习和期望风险都是机器学习中对模型进行分析的。
经验学习:指在模型在训练数据集上的平均误差,它是模型在训练集上的表现。
期望风险:指的是模型在整个数据集上的平均误差,包括训练集和测试集等所有数据。
在机器学习中,我们的目标是最小化期望风险。但是,由于我们只有训练数据集,我们无法准确知道期望风险。因此,我们使用经验风险来近似期望风险,从而指导我们的模型训练过程。