学习笔记3分支--学习笔记1-机器学习相关的基本名词及概念

最新推荐文章于 2024-07-28 17:14:37 发布

e_te_

最新推荐文章于 2024-07-28 17:14:37 发布

阅读量206

点赞数

本文链接：https://blog.csdn.net/qq_40452344/article/details/103515415

版权

今天在菜鸡起步的路上遇到了以下一些对我来说很专业的词汇，下面整理一下：

基本名词及概念

特征：模型的输入

样本：用于训练流程的输入/输出对

标签：模型的输出

层级：神经网络中相互连接的节点集合。

模型：神经网络的表示法

密集全连接层 (FC)：一个层级中的每个节点都与上个层级中的每个节点相连。

权重和偏差：模型的内部变量

损失：期望输出和真实输出之间的差值

MSE：均方误差，一种损失函数，它会将一小部分很大的差值视作比大量很小的差值更糟糕。

梯度下降法：每次小幅调整内部变量，从而逐渐降低损失函数的算法。
优化器：梯度下降法的一种具体实现方法。（有很多算法。在这门课程中，我们将仅使用“Adam”优化器，它是 ADAptive with Momentum 的简称，并且被视为最佳优化器。）

学习速率：梯度下降过程中的损失改进“步长”。

批次：在训练神经网络的过程中使用的一组样本。

周期：完全经过整个训练数据集一轮

前向传播：根据输入计算输出值

反向传播：根据优化器算法计算内部变量的调整幅度，从输出层级开始，并往回计算每个层级，直到抵达输入层。

扁平化：将二维图像转换为一维向量的过程

ReLU：一种激活函数，使模型能够解决非线性问题

Softmax：一种函数，能够为每个潜在输出类别生成概率

分类：一种机器学习模型，用于区分两个或多个输出类别

CNN：卷积神经网络。即至少有一个卷积层的网络。典型的 CNN 还包括其他类型的层级，例如池化层和密集层。

卷积：向图像应用核（滤波器）的过程

核/滤波器：小于输入的矩阵，用于将输入变成多个小区域

填充：在输入图像周围添加像素，像素值通常为 0

池化：通过下采样降低图像大小的过程。池化层有多种类型。例如，平均池化通过求平均值将多个值变成一个值。但是最大池化是最常见的池化类型。

最大池化：一种池化过程，通过获取多个值中的最大值，将多个值变成一个值。

完全连接层：观察上一层的输出（其表示了更高级特征的激活映射）并确定这些特征与哪一分类最为吻合和拥有怎样的特定权重，因此当计算出权重与先前层之间的点积后，你将得到不同分类的正确概率。

训练：计算机通过一个名为反向传播的训练过程来调整过滤器值（或权重）。

步长：在图像上滑动核（滤波器）的间隔像素数量。

下采样：对于一个样值序列间隔几个样值取样一次，这样得到新序列就是原序列的下采样。

调整尺寸：在处理不同尺寸的图像时，我们必须将所有图像调整为相同的尺寸，这样才能传入 CNN。

卷积：在处理 RGB 图像时，我们使用各自的卷积过滤器对每个颜色通道执行卷积运算。对每个颜色通道执行卷积运算的过程与灰阶图像一样，即对卷积过滤器（核）与输入数组的一部分执行元素级乘法运算。将每次卷积的结果相加，并加上偏差值，得出卷积输出。

最大池化：在处理 RGB 图像时，我们会使用相同的窗口大小和步长对每个颜色通道执行最大池化运算。对每个颜色通道执行最大池化运算的过程与灰阶图像一样，即从每个窗口中选择最大值。

feature map：卷积层，数据都是以三维形式存在的。你可以把它看成许多个二维图片叠在一起（像豆腐皮竖直的贴成豆腐块一样），其中每一个称为一个feature map。

其它层：层与层之间会有若干个卷积核（kernel）（也称为过滤器），上一层每个feature map跟每个卷积核做卷积，都会产生下一层的一个feature map，有N个卷积核，下层就会产生N个feather map。

验证集：我们使用验证集检查模型在训练过程中的效果。我们可以根据验证集应用早停法技巧，防止过拟合；并且可以使用验证集比较不同的模型，然后选择最佳模型。

早停法：对于此方法，我们会在训练过程中跟踪验证集的损失，并根据该损失判断何时停止训练，使模型很准确，但是不会过拟合。

图像增强：通过向训练集中的现有图像应用随机图像转换，人为地增加训练集中的图像数量。

丢弃：在训练过程中，从神经网络中随机选择固定数量的神经元并关闭这些神经元。

GT：ground truth，真实（手工）标记的区域

IoU (Intersection over Union)，交集并集比

ROI (region of interest) , 感兴趣区域

ROC (Receiver Operating Characteristic curve) 受试者工作特征曲线，把TP作为纵坐标，FP作为横坐标，就是一个类别的ROC曲线了：

曲线下的蓝色区域就是曲线下区域AUC (Area Under the Curve)了如果AUC的面积为1，恭喜你，在这个类别上你的准确率是最高的。AUC一般越大越好，说明某个类别的分类准确度越高。

RPN：（Region Proposal Network）Region Proposal的中文意思是“区域选取”，也就是“提取候选框”的意思，所以RPN就是用来提取候选框的网络。RPN的引入，可以说是真正意义上把物体检测整个流程融入到一个神经网络中，这个网络结构叫做Faster RCNN；

Faster RCNN = RPN + Fast RCNN

heatmap：热图可以展现数据的差异性，特别是面对庞大的数据，通过热图可视化，可以直观了解数据的分布情况或者差异情况。其次，在实际分析过程中还可以通过热图发现质量离谱的数据，协助进行质量控制。通过热图可以简单地聚合大量数据，并使用一种渐进的色带来优雅地表现，最终效果一般优于离散点的直接显示，可以很直观地展现空间数据的疏密程度或频率高低。但也由于很直观，热图在数据表现的准确性并不能保证。

BaseLine

你训练一个模型，获得了80%的准确率，你觉得很高吗？不能这么说，因为你没有与别人的东西作对比。也就是说“something else”就是baseline。你使用已经存在的流行的算法作为baseline，baseline的选择取决于你的目的，我们的最终目标是超越baseline，如果你的算法模型训出来比baseline的acc要高，或者其他的指标如训练的时间，预测的时间，内存使用率等等要更好，那么就可以说你超越了baseline，换句话说，你自己的算法模型训练结果就是一个baseline。

PipeLine

举个例子，在自动驾驶汽车研发的过程当中，我们需要不断获取数据，设计算法，改进网络，把camera获取到的实时视频拿给算法模型去训练，得到loss，再不断循环训练，不断喂新的数据进来，我们最终可以得到一个模型，在汽车实地跑的时候，可以通过inference把结果显示在车载screec上。所以这一整个框架流程，从输入数据输入给算法模型去训练，最终把得到的输出模型用在实际的生活当中得到perform——这个过程就是pipeline。

----------------------------------------------------------------------------

部分来源原文链接：https://blog.csdn.net/liyuxing6639801/article/details/101424310