机器学习基本名词介绍

最新推荐文章于 2024-03-19 12:10:42 发布

PRML_MAN

最新推荐文章于 2024-03-19 12:10:42 发布

阅读量834

点赞数

分类专栏：机器学习文章标签：机器学习

本文链接：https://blog.csdn.net/PRML_MAN/article/details/116891531

版权

3 篇文章 0 订阅

订阅专栏

在机器学习中，存在很多的名词，本文主要将机器学习中用到的名词进行汇总和介绍，如果有漏缺，烦请在评论区留言，持续改进和完善。

关于超参数，第一次听到的时候，感觉很高大上，以为参数的维度很高或者参数的数据很大，实际了解后才知道，超参数是机器学习算法中预先设定的参数（非学习到的参数）。
这里给大家举个例子，例如，岭回归中的参数λ = 0.1，是在训练之前就已经设定值，因此，λ是一个超参数。
在这里插入图片描述

样本是机器学习中的核心名词，机器学习算法模型M被算法工程师设定后，需要一堆数据D来进行学习，学习完成后的模型需要测试数据T对模型的准确率进行测试。这里的数据D和数据T都是样本数据。

从样本数据中提取的对样本的一种新的表示方式，对样本进行特征提取后，特征数据能够更好的提升算法模型对样本的分类，例如，描述图片边缘信息的hog特征。
特征提取分为两大类，一类是人工设计的基本特征，另一类是通过学习算法挖掘出来的特征。

监督学习顾名思义就是监督机器进行学习，因此，换个角度可以理解成，在进行监督学习前，对训练的数据打标签，将数据和标签一起输入到机器学习的模型中进行训练。训练完成后，将测试样本输入到模型中，将模型预测的结果和实际结果进行对比，查看模型的准确率。
监督学习唯一的难点就是对训练数据进行标注。

无监督学习，就是没有对训练数据进行打标签，无监督学习主要从训练数据集中找出有用的结构性质，例如，学习数据集的整个概率分布，将样本分成相似样本的集合（聚类算法）。

为了得到一致假设而使假设变得过度严格称为过拟合。通俗的话来讲，模型对该事物的认识过于细节，从而将一些同类的数据识别成非同类的事物。举个栗子：下图的图像中，由于训练数据存在误差和干扰，如果模型训练过拟合，会导致训练的模型为图中绿色的曲线，实际分类想过最好的应该是黑色的曲线。
在这里插入图片描述

欠拟合跟过拟合是相对立的，过拟合是过火了，而欠拟合是训练的不够，所训练的模型不能完全表述数据关系。例如下图中的数据在拟合过程中，图1的拟合比较欠缺，无法表达数据的真实分布，图2则比较合适。因此，图1就是欠拟合的情况。
在这里插入图片描述

关注

专栏目录