YOLO中mode.predict()参数详解-CSDN博客

本文链接：https://blog.csdn.net/qq_63075864/article/details/147069395

Inference arguments:

Argument	Type	Default	Description
source	str	‘ultralytics/assets’	指定推理的数据源。可以是图像路径、视频文件、目录、URL 或实时源的设备 ID。支持多种格式和数据源，可在不同类型的输入中灵活应用。
conf	float	0.25	设置检测的最小置信度阈值。置信度低于此阈值的检测对象将被忽略。调整此值有助于减少误报。
iou	float	0.7	非极大值抑制 (NMS) 的交并比 (IoU) 阈值。较低的值会通过消除重叠框来减少检测数量，有助于减少重复检测。
imgsz	int or tuple	640	定义推理的图像大小。可以是用于正方形调整大小的单个整数 640，也可以是一个 (高度, 宽度) 元组。适当的大小调整可以提高检测精度和处理速度。
half	bool	False	启用半精度 (FP16) 推理，这可以在对精度影响最小的情况下加快支持的 GPU 上的模型推理速度。
device	str	None	指定推理的设备（例如，cpu、cuda:0 或 0）。允许用户在 CPU、特定 GPU 或其他计算设备之间进行选择以执行模型。
batch	int	1	指定推理的批量大小（仅当源是目录、视频文件或 .txt 文件时有效）。更大的批量大小可以提供更高的吞吐量，缩短推理所需的总时间。
max_det	int	300	每个图像允许的最大检测数量。限制模型在单次推理中可以检测到的对象总数，防止在密集场景中出现过多的输出。
vid_stride	int	1	视频输入的帧步长。允许跳过视频中的帧以加快处理速度，但会降低时间分辨率。值为 1 时处理每一帧，更高的值会跳过帧。
stream_buffer	bool	False	确定是否为视频流排队传入的帧。如果为 False，旧帧将被丢弃以容纳新帧（针对实时应用进行了优化）。如果为 True，将新帧排队到缓冲区中，确保不会跳过任何帧，但如果推理帧率低于流帧率，则会导致延迟。
visualize	bool	False	在推理期间激活模型特征的可视化，提供对模型 “看到” 的内容的洞察。对调试和模型解释很有用。
augment	bool	False	为预测启用测试时增强 (TTA)，有可能以推理速度为代价提高检测的鲁棒性。
agnostic_nms	bool	False	启用类无关的非极大值抑制 (NMS)，它会合并不同类别的重叠框。在类重叠常见的多类检测场景中很有用。
classes	list[int]	None	将预测结果过滤为一组类别 ID。仅返回属于指定类别的检测结果。在多类检测任务中，对于专注于相关对象很有用。
retina_masks	bool	False	返回高分辨率的分割掩码。如果启用，返回的掩码（masks.data）将与原始图像大小匹配。如果禁用，它们将具有推理期间使用的图像大小。
embed	list[int]	None	指定从中提取特征向量或嵌入的层。对聚类或相似性搜索等下游任务很有用。
project	str	None	如果启用保存功能，则为保存预测输出的项目目录名称。
name	str	None	预测运行的名称。用于在项目文件夹中创建一个子目录，如果启用保存功能，则将预测输出存储在该子目录中。
stream	bool	False	通过返回 Results 对象的生成器而不是一次性将所有帧加载到内存中，实现对长视频或大量图像的内存高效处理。
verbose	bool	True	控制是否在终端中显示详细的推理日志，提供有关预测过程的实时反馈。

Visualization arguments:

Argument	Type	Default	Description
show	bool	False	如果为 `True`，则在窗口中显示带注释的图像或视频。在开发或测试过程中，对于即时获得视觉反馈很有用。
save	bool	False 或 True	启用将带注释的图像或视频保存到文件。对于记录、进一步分析或共享结果很有用。使用命令行界面 (CLI) 时默认值为 `True`，在 Python 中使用时默认值为 `False`。
save_frames	bool	False	在处理视频时，将单个帧保存为图像。对于提取特定帧或进行详细的逐帧分析很有用。
save_txt	bool	False	按照 `[class] [x_center] [y_center] [width] [height] [confidence]` 的格式将检测结果保存到文本文件中。对于与其他分析工具集成很有用。
save_conf	bool	False	在保存的文本文件中包含置信度分数。增强了可用于后期处理和分析的详细程度。
save_crop	bool	False	保存检测到的对象的裁剪图像。对于数据集增强、分析或为特定对象创建聚焦的数据集很有用。
show_labels	bool	True	在可视化输出中为每个检测显示标签。可让人立即了解检测到的对象。
show_conf	bool	True	在标签旁边为每个检测显示置信度分数。深入了解模型对每个检测的确定程度。
show_boxes	bool	True	在检测到的对象周围绘制边界框。对于在图像或视频帧中直观识别和定位对象至关重要。
line_width	None 或 int	None	指定边界框的线宽。如果为 `None`，则线宽会根据图像大小自动调整。为了清晰起见，提供了可视化自定义功能。
font_size	float	None	注释的文本字体大小。如果设置为 `None`，则会根据图像大小自动缩放。
font	str	‘Arial.ttf’	可视化中文本注释的字体名称或路径。
pil	bool	False	返回 `PIL Image` 对象形式的图像，而不是 `numpy` 数组。
kpt_radius	int	5	在可视化姿态估计结果时，关键点的半径。
kpt_line	bool	True	在可视化姿态估计时，用线条连接关键点。
masks	bool	True	在可视化输出中显示分割掩码。
probs	bool	True	在可视化中包含分类概率。
filename	str	None	当 `save=True` 时，保存带注释图像的路径和文件名。
color_mode	str	‘class’	指定可视化的着色模式，例如，‘instance’ 或 ‘class’。
txt_color	tuple[int, int, int]	(255, 255, 255)	分类任务注释的 RGB 文本颜色。