计算机视觉(以及一般的机器学习)是那些似乎难以接近的领域之一,因为有太多特定于行业的词(或以新颖方式使用的常用词),感觉有点像您正在尝试学习一门新语言。
我们在这里定义了许多这些独特的词、短语和首字母缩略词,以帮助您克服困难。
- Ablation Study(消融研究) - 从您的模型中一个接着一个的删除特征,以查看每个特征对性能的贡献程度。
- Accuracy(准确性) - 模型做出的“正确”与“不正确”预测的比例。在具有单一正确答案的分类模型中很常见(与对象检测相比,其中存在从“完美”到“非常接近”到“完全错误”的过渡。)经常使用诸如“前 5 名准确率”之类的术语,这意味着“在模型的前 5 个最有把握的预测中,正确答案有多少?” Top-1 精度和 Top-3 精度也很常见。
- Activation(激活) - 在数据通过网络时转换数据的神经网络神经元的方程。参见激活函数。
- Activation Function(激活函数) - 通过神经网络转换输入数据的数学方程。常见的激活函数包括 sigmoid 函数和 tanh。
- Anchor Box - 常见于物体检测模型中,用于帮助预测边界框的位置。
- Annotation - 每个图像的“答案”。标注是放置在图像上的标记(用于对象检测的边界框、用于分割的多边形或分割图),以向模型传输真实值。
- Annotation Format- 对标注信息进行编码的特殊方式。有多种方法可以描述边界框的大小和位置(JSON、XML、TXT 等),以及描述哪个标注与哪个图像对应。
- Annotation Group- 描述您正在识别的对象类型。例如,“棋子”或“车辆”。类(例如“rook”、“pawn”)是标注组的成员。
- Architecture - 特定的神经网络布局(层、神经元、块等)。这些通常有多种尺寸,除了参数数量外,其设计相似。例如,EfficientDet 的范围从 D0(最小)到 D7(最大)。
- AUC - 曲线下面积。预测系统有效性的评估指标,以牺牲召回率为代价来权衡精度。随着预测算法置信度的降低,PR曲线向下倾斜,以允许更多但不太精确的预测。
- Augmentation - 通过改变您的输入图像来创建更多的训练示例,这样您的模型就不会在特定的训练示例上过度拟合。例如,您可以翻转、旋转、模糊或添加噪声。
- AutoML - 一键训练可优化自身的模型(通常托管在云中)。它们可以是一个很好的起点,一个很好的基线,并且在某些情况下,“它只是有效”的解决方案,而不是优化自己的模型。
- Backbone - 对象检测模型由三部分组成,头部、颈部和骨干。主干是对象检测模型的“基础”分类模型。
- Backprop反向传播 - 反向传播是神经网络改进自身的方式。对于每批训练数据,他们通过网络进行一次“前向传递”,然后从末端向后寻找每一层中每个神经元的“梯度”的方向,并在最减少的方向上稍微调整一下损失函数。经过数百万次迭代,它们一点一点地变得更好,这就是它们“学习”以适应训练数据的方式。
- Bag of Freebies - 一组增强技术,已被证明可以提高性能,而不管模型架构如何。YOLOv4 和 YOLOv5 已将这些技术构建到他们的训练管道中,以在不显着改变模型架构的情况下提高 YOLOv3 的性能。
- Batch Inference批量推理 - 一次对多帧进行预测,以利用 GPU 执行并行操作的能力。如果您进行离线(而不是实时)预测,这有助于提高性能。它增加了吞吐量(但不是 FPS)。
- Batch Size批量大小 - 您的模型在每一步训练中的图像数量。这是您可以调整的超参数。增加批量大小有优点(更快的训练)和缺点(增加内存使用量)。它还可以影响模型的整体准确性(并且选择一个好的批量大小有一点艺术性,因为它取决于许多因素)。您可能想要尝试更大或更小的批量。
- BCCD-血细胞计数和检测数据集。在显微镜下拍摄的一组血细胞图像,我们通常用于实验。
- Black Box黑匣子 - 一个系统,它使得很难窥视幕后正在发生的事情。神经网络通常被描述为黑匣子,因为很难解释它们“为什么”做出特定预测。模型可解释性是当前的热门话题和研究领域。
- Block块 - 为了简化它们的描述和创建,许多计算机视觉模型由描述一组相互连接的神经元的各种“块”组成。你可以把它们想象成乐高积木;它们彼此互操作,块的各种配置构成一个层(许多层构成一个模型)。
- Bounding Box边界框 - 包含对象的图像的矩形区域。通常由其最小/最大 x/y 位置或中心点 (x/y) 及其宽度和高度 (w/h) 以及其类别标签来描述。
- Channel 通道 - 图像由一个或多个通道组成。一个通道对于图像中的每个像素都有一个值。一幅灰度图像可能有一个通道来描述每个像素的亮度。彩色图像可能具有三个通道(一个分别用于红色、绿色和蓝色或色调、饱和度、亮度)。第四个通道有时用于深度或透明度。
- Checkpoint 检查点 - 模型权重快照。通常,您会在每个 epoch 结束时捕获一个检查点,以便在您的模型由于开始过度拟合而性能下降时可以返回到它。
- Class类 - 要识别的事物类型。例如,识别棋盘上棋子的模型可能具有以下类别:白棋、黑棋、白车、黑车、白骑士、黑骑士、白象、黑象、白-皇后,黑皇后,白王,黑王。在这种情况下,标注组将是“棋子”。
- Class Balance - 每个类的示例数量之间的相对分布。如果每个类的示例数量相当,模型通常会表现得更好。如果某个特定类别的示例数太少,则该类别“代表性不足”。如果某个特定类有更多实例,则该类被“过度代表”。
- Classification分类- 一种计算机视觉任务,旨在仅确定图像中是否存在某个类别(而不是其位置)。
- COCO - Microsoft Common Objects in Context 数据集包含 80 个类(从“人”到“手提包”再到“水槽”)中超过 200 万张图像。MS COCO 是一个标准数据集,用于对不同模型进行基准测试以比较其性能。其 JSON 注释格式也已普遍用于其他数据集。
- Colab - Google Colaboratory 是一个免费平台,可提供连接到免费 GPU 的托管 Jupyter Notebook。
- Computer Vision计算机视觉 - 与理解图像有关的领域。图像只是像素值的集合;通过计算机视觉,我们可以获取这些像素并了解它们所代表的含义。
- Confidence置信度 - 模型本质上是统计性的。除了预测之外,它还输出一个置信值,用于量化其预测正确的“确定性”。
- Confidence Threshold置信阈值 - 我们经常丢弃低于某个阈值的预测。该阈值是置信度阈值。
- Container容器- 将其依赖项打包到可移植环境中的虚拟化环境。Docker 是一种创建容器的常用方法。
- Converge收敛 - 随着时间的推移,我们希望我们的模型越来越接近假设的“最准确”权重集。迈向这种最高性能的过程称为收敛。收敛的反面是发散,其表现形式为模型偏离轨道并且随着时间的推移变得越来越糟。
- Convert转换- 以一种格式获取标注或图像并将它们转换为另一种格式。每个模型都需要特定格式的输入;如果我们的数据还不是这种格式,我们需要使用自定义脚本之类的工具对其进行转换。
- Convolution卷积 - 卷积是一种块,可帮助模型学习有关附近像素之间关系的信息。
- Convolutional Neural Network卷积神经网络(CNN、ConvNet)——计算机视觉中最常用的网络类型。通过组合许多卷积层,它可以学习越来越复杂的概念。早期层学习水平、垂直和对角线以及相似颜色的块等内容,中间层学习纹理和角等特征的组合,最后一层学习将这些特征组合成识别更高级别的概念,例如“耳朵”和“时钟”。
- CoreML - 一种用于为 Apple 设备编码权重的专有格式,它利用了 iPhone 和 iPad 设备上存在的硬件加速神经引擎。
- CreateML - 由 Apple 创建的无代码训练工具,将训练机器学习模型并导出到 CoreML。它支持分类和对象检测以及多种类型的非计算机视觉模型(例如声音、活动和文本分类)。
- CUDA - NVIDIA 创建通用 GPU 优化代码的方法。这就是我们能够使用最初为 3d 游戏设计的 GPU 设备来加速神经网络的方式。
- CuDNN - NVIDIA 的 CUDA 深度神经网络库是一组建立在 CUDA 之上的工具,专门用于在 GPU 上高效运行神经网络。
- curl - 一个命令行程序,通常用于在类 UNIX 操作系统(现在也包含在 Windows 10 中)上上传和下载文件。
- Custom Dataset自定义数据集- 一组与特定领域问题有关的图像和注释。与 COCO 或 Pascal VOC 等研究基准数据集相反。
- Custom Head自定义头部 -基于自定义数据集使用锚框自定义的对象检测头部。
- Darknet - 由 YOLO 系列对象检测模型的发明者 PJ Reddie 创建并推广的基于 C 的神经网络框架。
- Data数据 - 任何类型的信息。它可以是图像、文本、声音或表格。
- Dataset 数据集- 用于通过示例训练机器学习模型的数据集合和输出的真实值。对于对象检测,这将是您希望模型学习预测的一组图像(数据)和注释(真实值)。
- Deploy部署- 获取经过训练的模型的结果并使用它们对现实世界的数据进行推理。这可能意味着在服务器上托管模型或将其安装到边缘设备。
- Differentiable可微 - 为了使反向传播起作用,神经网络执行的所有操作都必须能够计算其导数以确定梯度。
- Distributed分布式 - 分布在多个设备上。分布式训练通常意味着使用多个 GPU(通常位于不同的物理机器上)来训练您的模型。
- Docker - 构建容器的通用标准。
- Domain Specific特定领域 - 不普遍适用的问题或技术。例如,如果您试图在 X 射线中检测肿瘤,任何与癌症生物学有关的事情都是特定领域的,因为它不适用于通过卫星图像测量交通流量。
- Download下载 - 从远程机器获取文件并将其移动到另一台机器。例如,您可能希望将模型权重从 Google Colab 下载到本地计算机,或从 Roboflow 将数据集下载到 AWS 上的虚拟机。
- Early Stopping提前停止 - 检测您的模型何时达到峰值性能并在“完成”之前终止训练。您可以使用多种启发式方法来确定您的模型已达到局部最大值;提前停止可以防止过度拟合并避免浪费时间和计算资源。
- Edge Deployment边缘部署- 部署到无需通过 Internet 将数据上传到中央服务器即可进行预测的设备。这可以是 iPhone 或 Android 设备、Raspberry Pi、NVIDIA Jetson、机器人,甚至是一台带有 GPU 的完整计算机。
- EMA(exponential moving average) - 指数移动平均线。有助于平滑嘈杂的输入。
- 环境Environment - 一组机器规格、操作系统、编程语言和框架。例如,您的训练环境可能是使用 PyTorch 1.6 在 AWS EC2 上的 p2.xlarge 上运行的 Ubuntu系统。
- Epochs - 运行训练数据的次数。
- EXIF - 附加到图像的元数据(例如,方向、GPS 数据、有关捕获设备的信息、快门速度、光圈等)。
- Export导出 - 在 Roboflow 中,导出是可以下载的数据集的序列化版本。
- F1 - 预测系统有效性的度量。F1 是召回率(猜测足够次数)和精确度(当系统猜测时正确猜测)的组合。高 F1 意味着在需要进行猜测时正确猜测。
- False Negative假阴性 - 当您的模型无法预测实际存在的对象时。
- False Positive误报 - 当您的模型预测一个对象存在而实际上并不存在时。
- Family - 一组相互关联的模型。例如,YOLO 系列模型遵循从 YOLOv1 到 YOLOv5 的谱系。这些模型的核心概念都是相同的,但随着时间的推移,它们有了新的技术和改进。
- FastAI - 建立在 PyTorch 之上的库,用于快速原型设计和实验。有一门配套课程教授机器学习的基础知识。
- Feature特征 - 模型学习到的数据的派生属性。例如,一组卷积可以学习如何识别图像中的之字形线。之字形线则是学习到的特征。
- Feature Fusion特征融合 - 在神经网络中组合衍生数据特征。
- 特征金字塔网络 (FPN) - 目标检测器中的基本特征融合策略。按顺序组合卷积神经网络特征。
- Filter Null - 从您的数据集中删除一定比例的空示例,以便您的模型不会通过频繁地预测“空”来学习优化其损失函数。
- FLIR - 前视红外线。红外线测量红外光谱中物体的热量,而不是可见光谱中物体的颜色。模型可以在红外图像和视觉图像上进行训练。
- FLOPS - 每秒浮点运算(用作计算能力的度量)。例如,您可能会看到一个 GPU 声称要执行 8 TFLOPS,这意味着每秒执行 8 万亿次浮点运算。
- FP8 - 8 位浮点。(也称为四分之一精度。)降低模型的精度可以提高其速度和精度,还可以利用较新 GPU 的功能,如张量核心。
- FP16 - 16 位浮点。(也称为半精度。)
- FPS - 每秒帧数。在实时推理中,这是衡量模型可以执行多少顺序推理操作的指标。更高的数字意味着更快的模型。
- Framework框架- 深度学习框架实现神经网络概念。有些是为训练和推理而设计的——TensorFlow、PyTorch、FastAI 等。还有一些是专门为快速推理而设计的——OpenVino、TensorRT 等。
- GAN合成(GAN Synthesis) - 使用生成对抗网络创建更多训练数据。
- Generalize泛化性 - 模型对从未见过的输入数据进行准确预测的能力。
- Generate生成 - 在 Roboflow 中,生成图像意味着将它们处理成最终形式(包括预处理和增强它们)。
- GPU - 图形处理单元。最初开发用于 3d 游戏,它们非常擅长执行矩阵运算,而这恰好是神经网络的基础。在 GPU 上训练让您的模型计算并行运行,这比 CPU 执行的串行操作(对于它们能够执行的操作子集)快得多。
- GPU 内存 - 您的 GPU 可以容纳的信息量。更大的 GPU 将能够并行处理更多信息,这意味着它可以支持更大的模型(或更大的批量大小)而不会耗尽内存。如果你的 GPU 内存用完了,你的程序就会崩溃。
- Gradient梯度 - 神经网络使用梯度下降来一点一点地改进。梯度是一组计算的方向(通过对损失函数求导),它将极大地改善预测。通过在梯度方向上迈出一小步,然后重新计算梯度并重复该过程,神经网络可以在训练过程中提高其性能。
- Ground Truth - 数据集的“答案”。这就是你如何判断你的模型做得如何,并计算我们用于梯度下降的损失函数。这也是我们用来计算指标的方法。拥有良好的真实值非常重要。您的模型将根据您提供给它的真实值进行学习。
- Head头部 - 进行预测的对象检测器部分。头部使用在物体检测器颈部产生的特征。
- Health Check健康检查- Roboflow 中的一组工具,可帮助您了解数据集的组成(例如大小、维度、类平衡等)。
- Hold Out Set保持集- “测试集”的另一个名称 - 训练完成后保留的数据集部分,用于检查模型的泛化程度。
- Hosted Dataset托管数据集- Robofow 将您的数据集存储在云中(由您的 API 密钥保护),以便您可以从正在训练的任何机器访问它。
- Hosted Model 托管模型- 一组位于云中的训练权重,您可以通过 API 接收预测。(与边缘部署模型相反。)
- Hyperparameter超参数 - 您可以在训练期间调整模型。这些包括学习率和批量大小之类的东西。您可以尝试更改超参数,以查看哪些超参数对您的数据集的给定模型表现最佳。
- Inference推理- 使用训练模型后保存的权重进行预测。
- IoU - 交并比。您可以用来衡量对象检测模型执行情况的指标。通过将预测的边界框与真实边界框重叠的面积除以两个边界框的总面积来计算。
- Jetson - 由 NVIDIA 创建的边缘计算设备,包括板载 GPU。
- JSON - 一种自由格式的数据序列化格式,最初作为 JavaScript 的一部分创建,但现在使用范围更广。许多注释格式使用 JSON 对其边界框进行编码。
- Jupyter Notebook - 一种常见的数据科学工具,可让您直观地执行 Python 代码。笔记本中的每个“单元格”都是一个代码块,您可以通过按“Ctrl+Enter”来执行。执行结果显示在单元格下方。
- Keypoint Detection关键点检测 - 一种预测点的计算机视觉模型(与对象检测中的框相反)。通常,关键点检测用于人体姿态估计或手指跟踪,其中只有对象的位置而不是其大小很重要。
- Label标签 - 数据集中特定对象的类。在分类中,这是整个预测。在目标检测中,它是边界框的非空间组件。
- Layer层 - 层由神经元(更常见的是神经元块)组成。深度神经网络由几层组成。每一层中的神经元连接到一个或多个其他层中的神经元。添加层使网络“更深”。随着网络越来越深,它变得越来越复杂,这赋予了它更多的预测能力(但也使得它更难训练,因为它以指数方式增加了解决方案空间)。
- Learning Rate学习率 - 一个超参数,用于定义在训练期间每批之后沿梯度的步长大小。通常,学习率会在训练过程中发生变化(这称为具有“循环学习率”。如果您的学习率太小,您的模型会收敛得很慢。如果太大,可能会导致您的模型权重为爆炸和你的模型发散。
- LiDAR - 激光成像检测和测距。这是一种使用激光来检测深度的设备。内置于许多自动驾驶汽车中,现在包含在 iPad Pro 中,用于构建用于增强现实的 3d 世界地图。
- Localization定位 - 识别对象在图像中的位置。这是对象检测和关键点检测的一部分,提供 x/y 坐标(与类标签相反)。
- Loss Function损失函数 - 预测“有多远”的可微分计算。这用于计算梯度,然后在训练循环的每次迭代中控制模型步骤的方向。损失函数的输出称为“损失”,通常分别在训练集和验证集上计算(分别称为“训练损失”和“验证损失”)。此值越低,模型的预测就越准确。
- Machine Learning机器学习 - 通过实例教授计算机的领域。与传统的编程不同,您编写程序将输入转换为输出的“规则”,而是提供许多输入和所需输出的示例,并让它通过(智能)反复试验来编写规则。
- mAP - 平均平均精度。用于判断对象检测模型执行情况的指标。
- Memory Footprint 内存占用 - 模型占用多少内存空间。这在很大程度上取决于模型中的参数数量和批量大小。您想确保这适合您的 GPU 内存。
- Metadata元数据 - 存储的关于您的数据的辅助信息。例如,收集它的日期和时间。通常存储为 EXIF。
- Metrics指标 - 评估指标用于评估机器学习系统的性能。
- Mixed Precision混合精度 - 在训练期间使用全精度和半精度浮点数。这已被证明可以在不降低性能的情况下提高速度。
- Mobile Deployment移动部署- 部署到手机等边缘设备。电池使用和散热等考虑因素开始发挥作用。
- Model模型- 一种体系结构的特定化身。模型为其权重文件定义了输入大小和布局。例如,YOLOv5s 是 YOLOv5 的最小版本,YOLOv5 是 YOLO 家族中的一个结构。
- Model Configuration模型配置 - 用于将结构调整为特定模型并设置其超参数。
- Model Size模型大小 - 模型具有的参数(或神经元)数量。这也可以通过磁盘上权重文件的大小来衡量。
- Model Zoo - 可供下载的模型结构集合(有时是预训练的模型权重)。
- Mosaic - 一种高级增强,将训练集中的多个图像组合在一起,已被证明可以提高对象检测训练性能。
- Neck颈部 - 对象检测模型的一部分,从基本卷积神经网络主干形成特征。
- Neural Architecture Search神经结构搜索 - 自动尝试模型布局和超参数的多种变体以找到最佳配置。
- Neuron神经元 - 也称为参数,神经元或感知器是一个数学函数,它接受多个输入和输出,将它们与其权重(随着网络学习而随时间变化)相乘,并输出一个值,然后将其输入其他神经元作为他们的输入之一。
- NMS - 非最大抑制。
- Non-Destructive非破坏性 - 可以在不丢失信息的情况下逆转的操作。Roboflow 的预处理和增强步骤是非破坏性的,因为它们不会覆盖源值。
- Normalization标准化 - 基于分布标准化数据输入。
- nvidia-smi - 一种可用于检查配备 NVIDIA 显卡的机器上 GPU 状态的工具。例如,您可以使用此命令的输出来确定在给定时间点消耗了多少 GPU 内存。
- NVIDIA Container Toolkit - 一个帮助程序库,可帮助创建可以访问主机 GPU 的 Docker 容器。
- Null Annotation - 一个有意为空的注释,可以帮助您的模型了解对象并不总是存在。
- Object Detection对象检测- 一类计算机视觉模型,使用矩形边界框对对象进行分类和定位。
- Occlusion遮挡 - 当一个对象被另一个对象部分遮挡时,它会被该对象“遮挡”。模拟遮挡很重要,这样您的模型就不会过度依赖一个独特的特征来识别事物(例如,通过遮挡猫的耳朵,您也迫使它了解它的爪子和尾巴,而不是仅仅依靠耳朵来识别它如果在现实世界中猫的头最终被椅子隐藏,则很有帮助)。
- Offline Prediction离线预测 - 与“实时”预测相反,这是模型对返回答案所需的速度没有硬性限制的情况。一个例子是索引用户的照片库以进行搜索。该任务可以在用户睡觉并且设备未在其他情况下使用时等待执行。
- ONNX - 一种跨平台、跨框架的模型权重序列化格式。通过将您的权重转换为 ONNX,您可以简化将其部署到生产中所需的依赖项(通常转换为 ONNX 是部署到边缘的必要步骤,并且可能是将权重转换为另一种格式的中间步骤)。
- Ontology本体- 类的分类和层次结构。随着您的项目的发展,为您的团队标准化常见的命名约定变得越来越重要。
- OpenCV - 在深度学习变得无处不在之前普及的“传统”计算机视觉框架。它擅长做诸如检测边缘、图像残留和对象跟踪之类的事情。近年来,它还开始扩展到更新的机器学习驱动的计算机视觉技术。
- OpenVINO - 英特尔的推理框架。专为在 CPU 和 VPU 设备上进行快速推理而设计。
- Output输出 - 处理的结果。训练的输出是一组权重。推理的输出是预测。
- Outsourced Labeling外包标签- 付钱给人们注释和/或标记您的图像。有几家公司专门从事这项任务。当需要很少的领域专业知识来确定正确的注释时,它是最有效的(并且在需要专家提供准确真实值的植物病害检测等情况下很难做到)。
- Overfitting过度拟合 - 如果您的模型开始记住特定的训练示例,以至于它开始降低其在验证集上的性能。抵消过度拟合的策略包括收集更多的训练数据、增强和正则化。
- PaddlePaddle - 百度开发的深度学习框架。
- Parameters参数 - 权重的数量。网络中两个神经元之间的每个连接都有一个参数。每个都存储为浮点数,并在训练期间的每个反向传播步骤中进行调整。
- Pascal VOC - 视觉对象类是早期的基准数据集。它在很大程度上已被文献中的 COCO 等较新的数据集取代,但其 XML 注释格式已被其他数据集、标记工具和模型广泛使用。
- Performance性能 - 您的模型有多快和多准确。
- Platform平台 -计算机视觉平台是一种(通常是云托管的)元工具,它与各种其他工具相关联以管理您的全部(或部分)管道。
- Pipeline管道 - 您的计算机视觉管道是从原始图像到预测的过程。通常这包括收集图像、注释、数据检查和质量保证、转换、预处理和增强、训练、评估、部署、推理(然后重复循环以改进预测)。
- Polygon多边形 - 定义对象的(通常为非矩形)区域,比矩形边界框具有更多细节。多边形注释可用于训练分割模型或通过在增强后保持更准确的边界框来提高对象检测模型的性能。
- Precision精度 - 衡量模型在预测时的精确程度。真阳性除以所有猜测的阳性。
- Prediction预测 - 模型尝试复制真实值。预测通常包含每个类别的置信度值。
- Preprocessing预处理 - 在将所有图像输入模型之前对所有图像执行的确定性步骤(训练、验证、测试和生产)。
- Pretrained Model 预训练模型 - 已经在另一个数据集上训练过的模型。它学到的许多东西将广泛适用于其他数据集中的图像(例如,寻找线条、角落和颜色模式)。在像 COCO 这样的大型数据集上进行预训练可以减少获得满意结果所需的自定义图像的数量。
- Production生产 - 模型将在真实世界图像上运行的部署环境(与开发模型的测试环境相反)。
- PyTorch - 由 Facebook 开发的流行的开源深度学习框架。它专注于加速从研究原型到生产部署的路径。
- RasPi - Raspberry Pi 是一种廉价的基于 Linux 的微型计算机,具有广泛的兼容外围设备生态系统。
- Realtime实时 - 当模型需要在指定的时间内运行时,例如在移动增强现实应用程序中,它需要在比所需帧速率更短的时间内提供其预测,以便它能够跟上传入的图像。进行批量预测以利用并行处理在这里无济于事,因为一旦下一张图像出现在先前的预测中就不再相关。
- Recall召回 - 预测系统的性能度量。Recall 用于评估预测系统的猜测是否足够。真阳性/所有的真阳性。
- Region Attribute区域属性 - 除了类名和位置之外的附加属性,可以添加到某些注释工具中的边界框和多边形。它们可以被认为是对象(而不是图像)级别的元数据。
- Regression回归 - 一种预测一个或多个实数(例如年龄、年份或像素位置)的模型,其中预测与真实值的“接近程度”是可衡量的(与预测正确或错误的分类相反) )。
- Regularization正则化 - 一种减少机器学习模型偏差的技术。机器学习模型有过度拟合训练数据的趋势。正则化引入了对权重特征的惩罚,迫使机器学习系统制定灵活的算法。
- Remap重新映射- 在注释任务之后更改类组成。有时,您的本体需要随着您对问题的了解和流程的成熟而发展。
- Repo - 存储库的缩写。存储库是一个版本控制的存储位置,用于存储代码等内容,允许更改跟踪和团队协作。
- Requirements要求 - 复制您的环境所需的第三方代码。这些可以是库、框架或驱动程序。对于 Python 项目,需求存储在 requirements.txt 文件中。对于 Docker 容器,它们由 Dockerfile 定义。
- Resolution分辨率- 图像中的像素数(由宽度乘以高度定义)。标准的度量单位是百万像素(百万像素)。
- Runtime Environment运行时环境 - 执行机器学习代码的地方。CPU、GPU、VPU(视觉处理单元)或 TPU。
- SageMaker - Amazon AWS 的机器学习平台,包含用于外包注释、模型训练和部署的工具。
- Segmentation分割 - 一种模型,可对需要对象的确切轮廓时使用的每个像素进行分类。
- Self Adversarial Training自我对抗训练 - 这是一种技术,在这种技术中,模型战略性地剥夺自己最依赖的信息,迫使自己学习其他方法来做出预测。例如,如果它检测到它主要依靠猫耳朵来识别猫,它将关闭输入这些神经元的部分输入,以迫使它也学习其他识别猫的方法(例如它的爪子和尾巴)。
- Session会话 - TensorFlow Session为机器分配资源以执行 TensorFlow 定义的神经网络图结构。会话在 TensorFlow 2 中已弃用。
- Split拆分- 分离数据的子集并为不同的目的描绘它们。通常我们会创建三个子集:训练(给您的模型进行模仿)、验证(用于训练期间的评估)和测试(直到最后确定您的模型的泛化程度)。
- SSD - 单次检测器。只执行一次对对象进行定位和分类的模型。YOLO 家族以其名字而闻名:你只看一次。
- State of the Art 最先进的模型 - 目前是同类模型中的佼佼者,在基准数据集上的表现比任何其他以前已知的模型都要好。
- Subjective主观 - 与客观相反;直观观察但不一定能够测量的性能。例如,在语言建模中,模型的指标很相似,但根据人类读者的判断,其中一个输出在主观上更好,这是很常见的。
- Synthetic Data合成数据- 创建而非收集的图像。有多种创建更多训练数据的策略,包括使用 3D 模型、GAN 合成和上下文增强。
- Tensor张量 - 具有指定大小的给定类型的数字数组(可能是多维的)。由于它们具有指定的大小和形状,因此可以使用硬件加速器对其进行优化和并行化操作。
- Tensor Core - 这是英伟达图形处理器的品牌名称,专门针对深度学习(尤其是混合精度神经网络)进行优化。
- Tensorboard - 一种用于跟踪和可视化训练指标的工具,包括最初为 Tensorflow 开发的损失和mAP等常见统计数据的图表,但现在与 PyTorch 等其他框架兼容。
- Tensorflow - 谷歌流行的开源深度学习框架。
- Tensorflow Lite - Tensorflow 模型的模型序列化,优化它们以在移动和边缘设备上运行。
- TensorRT - NVIDIA 的推理优化工具。帮助优化部署在 NVIDIA 驱动的边缘设备上的模型。
- Test Set Bleed- 当来自测试集的数据泄漏到训练集时出现的问题。这很糟糕,因为它违背了你坚持的目的;您不再有任何方法来判断您的模型将如何泛化以预测它以前从未见过的图像。
- TFJS - 使(某些)经过 Tensorflow 训练的模型能够在 Web 浏览器中使用 Javascript、WebAssembly 和 WebGPU 执行推理的工具。
- TFRecord - 一种与 Tensorflow 兼容的二进制数据格式。在对象检测 API 中,所有图像和注释都存储在一个文件中。
- Tile- 将图像拆分为较小图像的网格,并通过模型独立运行它们以提高有效分辨率。这可能是一种提高模型准确性的有效策略,同时仍然适合仅有的内存(代价是每个图像必须多次运行模型)。
- TPU - 张量处理单元。Google 的硬件加速器,用于对张量执行操作。对于某些工作负载,它比 GPU 快得多。大多数情况下,它们在 Google Cloud 或 Google Colab 上运行,但也可以用 TPU部署在边缘设备上。
- Tradeoff权衡——当两个相互竞争的问题将你拉向相反的方向时。例如,通常需要在速度和准确度之间进行权衡(从快速和不准确到缓慢和准确的连续统一体,根据您的特定问题的需要,在两者之间有一系列有效的选择)。
- Train训练 - 反复调整模型参数以收敛于最佳模拟训练数据的权重的过程。
- Transfer Learning迁移学习 - 使用预先训练的权重来引导模型的学习。您正在“转移”在另一个数据集上学到的知识,然后对其进行“微调”以了解您的新领域。
- Tune微调 - 调整超参数以找到最佳参数以获得最佳模型。
- Two Stage Detector 两阶段检测器- 首先定位,然后分类的一类(通常是老一代)对象检测模型。与一次性完成两项任务的单次检测器相反。
- Validate验证- 在神经网络的训练过程中,验证集用于评估模型的泛化程度。这些例子不用于计算梯度;它们用于计算您的指标并查看随着时间的推移它们的改进情况。
- Version - 数据集的时间点快照。通过跟踪准确的图像,预处理,在模型的每次迭代中都使用了增强步骤,这样就可以在不同的模型和框架中重新生成结果并进行科学的测试,同时保持对结果归因于模型更改而不是数据管道中的错误的信心。
- Weights权重 - 神经元用来确定是否触发的模型参数。在训练期间通过反向传播学习最优值,然后可以序列化和部署以进行推理。
- Workflow工作流程 - 这将是手工步骤、自定义代码和第三方工具的某种组合。一个计算机视觉平台,可以帮助你建立一个最佳的工作流程。
- XML - 一种分层数据格式(HTML,一种定义您当前正在阅读的页面的布局和内容的标记语言,是 XML 的一个子集)。在计算机视觉中,XML 最常与 Pascal VOC XML 注释格式一起使用。
- YAML - 最初由 Yahoo 发明的标记语言,现在通常用作配置文件的格式(特别是在YOLOv5 的 YAML 配置中)。
- YOLO - You Only Look Once,一系列单阶段对象检测模型,为 2020 年秋季的对象检测提供最先进的结果。