Inference arguments:
Argument | Type | Default | Description |
---|---|---|---|
source | str | ‘ultralytics/assets’ | 指定推理的数据源。可以是图像路径、视频文件、目录、URL 或实时源的设备 ID。支持多种格式和数据源,可在不同类型的输入中灵活应用。 |
conf | float | 0.25 | 设置检测的最小置信度阈值。置信度低于此阈值的检测对象将被忽略。调整此值有助于减少误报。 |
iou | float | 0.7 | 非极大值抑制 (NMS) 的交并比 (IoU) 阈值。较低的值会通过消除重叠框来减少检测数量,有助于减少重复检测。 |
imgsz | int or tuple | 640 | 定义推理的图像大小。可以是用于正方形调整大小的单个整数 640,也可以是一个 (高度, 宽度) 元组。适当的大小调整可以提高检测精度和处理速度。 |
half | bool | False | 启用半精度 (FP16) 推理,这可以在对精度影响最小的情况下加快支持的 GPU 上的模型推理速度。 |
device | str | None | 指定推理的设备(例如,cpu、cuda:0 或 0)。允许用户在 CPU、特定 GPU 或其他计算设备之间进行选择以执行模型。 |
batch | int | 1 | 指定推理的批量大小(仅当源是目录、视频文件或 .txt 文件时有效)。更大的批量大小可以提供更高的吞吐量,缩短推理所需的总时间。 |
max_det | int | 300 | 每个图像允许的最大检测数量。限制模型在单次推理中可以检测到的对象总数,防止在密集场景中出现过多的输出。 |
vid_stride | int | 1 | 视频输入的帧步长。允许跳过视频中的帧以加快处理速度,但会降低时间分辨率。值为 1 时处理每一帧,更高的值会跳过帧。 |
stream_buffer | bool | False | 确定是否为视频流排队传入的帧。如果为 False,旧帧将被丢弃以容纳新帧(针对实时应用进行了优化)。如果为 True,将新帧排队到缓冲区中,确保不会跳过任何帧,但如果推理帧率低于流帧率,则会导致延迟。 |
visualize | bool | False | 在推理期间激活模型特征的可视化,提供对模型 “看到” 的内容的洞察。对调试和模型解释很有用。 |
augment | bool | False | 为预测启用测试时增强 (TTA),有可能以推理速度为代价提高检测的鲁棒性。 |
agnostic_nms | bool | False | 启用类无关的非极大值抑制 (NMS),它会合并不同类别的重叠框。在类重叠常见的多类检测场景中很有用。 |
classes | list[int] | None | 将预测结果过滤为一组类别 ID。仅返回属于指定类别的检测结果。在多类检测任务中,对于专注于相关对象很有用。 |
retina_masks | bool | False | 返回高分辨率的分割掩码。如果启用,返回的掩码(masks.data)将与原始图像大小匹配。如果禁用,它们将具有推理期间使用的图像大小。 |
embed | list[int] | None | 指定从中提取特征向量或嵌入的层。对聚类或相似性搜索等下游任务很有用。 |
project | str | None | 如果启用保存功能,则为保存预测输出的项目目录名称。 |
name | str | None | 预测运行的名称。用于在项目文件夹中创建一个子目录,如果启用保存功能,则将预测输出存储在该子目录中。 |
stream | bool | False | 通过返回 Results 对象的生成器而不是一次性将所有帧加载到内存中,实现对长视频或大量图像的内存高效处理。 |
verbose | bool | True | 控制是否在终端中显示详细的推理日志,提供有关预测过程的实时反馈。 |
Visualization arguments:
Argument | Type | Default | Description |
---|---|---|---|
show | bool | False | 如果为 True ,则在窗口中显示带注释的图像或视频。在开发或测试过程中,对于即时获得视觉反馈很有用。 |
save | bool | False 或 True | 启用将带注释的图像或视频保存到文件。对于记录、进一步分析或共享结果很有用。使用命令行界面 (CLI) 时默认值为 True ,在 Python 中使用时默认值为 False 。 |
save_frames | bool | False | 在处理视频时,将单个帧保存为图像。对于提取特定帧或进行详细的逐帧分析很有用。 |
save_txt | bool | False | 按照 [class] [x_center] [y_center] [width] [height] [confidence] 的格式将检测结果保存到文本文件中。对于与其他分析工具集成很有用。 |
save_conf | bool | False | 在保存的文本文件中包含置信度分数。增强了可用于后期处理和分析的详细程度。 |
save_crop | bool | False | 保存检测到的对象的裁剪图像。对于数据集增强、分析或为特定对象创建聚焦的数据集很有用。 |
show_labels | bool | True | 在可视化输出中为每个检测显示标签。可让人立即了解检测到的对象。 |
show_conf | bool | True | 在标签旁边为每个检测显示置信度分数。深入了解模型对每个检测的确定程度。 |
show_boxes | bool | True | 在检测到的对象周围绘制边界框。对于在图像或视频帧中直观识别和定位对象至关重要。 |
line_width | None 或 int | None | 指定边界框的线宽。如果为 None ,则线宽会根据图像大小自动调整。为了清晰起见,提供了可视化自定义功能。 |
font_size | float | None | 注释的文本字体大小。如果设置为 None ,则会根据图像大小自动缩放。 |
font | str | ‘Arial.ttf’ | 可视化中文本注释的字体名称或路径。 |
pil | bool | False | 返回 PIL Image 对象形式的图像,而不是 numpy 数组。 |
kpt_radius | int | 5 | 在可视化姿态估计结果时,关键点的半径。 |
kpt_line | bool | True | 在可视化姿态估计时,用线条连接关键点。 |
masks | bool | True | 在可视化输出中显示分割掩码。 |
probs | bool | True | 在可视化中包含分类概率。 |
filename | str | None | 当 save=True 时,保存带注释图像的路径和文件名。 |
color_mode | str | ‘class’ | 指定可视化的着色模式,例如,‘instance’ 或 ‘class’。 |
txt_color | tuple[int, int, int] | (255, 255, 255) | 分类任务注释的 RGB 文本颜色。 |