Datawhale AI夏令营(cv方向) task3:上分思路——数据集增强与模型预测

机器学习模型调参方法探讨:

Q:在检测的时候有两个目标,贴的比较近,容易触发非极大值抑制,然后就变被检测成只有一个了,这有什么办法处理?

A:1.调整NMS阈值:NMS阈值决定了哪些检测框会被抑制。尝试降低这个阈值,可以让算法对靠近的检测框更加敏感,从而减少误判

2.使用Soft-NMS:传统的NMS算法会直接抑制掉与最高得分框重叠度较高的其他框。而Soft-NMS则会对这些框的得分进行衰减,而不是直接抑制,这样可以保留更多有用的信息

3.增加模型对尺度的敏感性:通过使用多尺度训练或测试,或者采用像FPN(Feature Pyramid Networks)这样的结构,可以增强模型对不同尺寸目标的检测能力。

4.数据增强:在训练数据中增加包含靠近目标的样本,可以帮助模型学习如何更好地处理这种情况。

Q:如果是按视频来看的话,车就是从再到中间开过去,那肯定不算违停。但是如果你抽针抽出来,然后放到目前的检测的话,那不是相当于目前看到的整个静态的就相当于好像那个车就停在路中间一样,那种算违停吗?

A:与模型的理解能力与数据集的打标有关。

1.考虑车辆运动状态。

结合视频帧间的信息

可以通过分析连续多帧图像中车辆的位置变化,来判断车辆是否处于静止状态。如果车辆在多帧图像中的位置变化很小或几乎没有变化,那么可以认为车辆是静止的,有可能存在违停行为。

实现这一功能通常需要利用视频处理技术,如光流法或帧差法等,来追踪视频中车辆的运动轨迹。

2.优化YOLO算法

3.引入后处理步骤

轨迹分析

在检测到车辆后,可以进一步分析其在视频中的运动轨迹。如果轨迹表明车辆只是在短暂停留或穿越道路,则不应判断为违停。

场景理解

结合场景理解技术,如语义分割或场景图生成等,来更准确地判断车辆是否处于违停区域。这有助于区分合法停车区域和违停区域。

4.用户反馈与调整

在系统部署后,可以通过用户反馈来不断优化算法和参数设置。例如,根据用户反馈调整时间阈值或NMS阈值等。

SSD与图像分割的讨论

SSD是一种目标检测算法,而图像分割则是将图像划分为多个区域,每个区域代表不同的对象或特征。

SSD算法的核心思想是利用多层特征图进行目标检测,通过在不同尺度的特征图上进行密集抽样,并使用CNN提取特征后直接进行分类与回归。这种方法在检测速度和准确度上取得了良好的平衡,尤其适用于实时性要求较高的场景。

提升YOLO性能的策略

一、数据集处理

  1. 数据收集与筛选
    • 收集更多的训练数据,尤其是覆盖各种场景和条件的数据,以提高模型的泛化能力。
    • 清理和预处理数据,确保数据质量,去除异常或错误标注的样本。
  2. 数据增强
    • 使用数据增强技术,如随机裁剪、缩放、旋转、翻转、颜色抖动等,增加训练数据的多样性和鲁棒性。
    • 尝试使用马赛克数据增强等高级技术,将多张图像随机组合在一起,形成新的训练样本,增强模型对复杂场景的理解能力。
  3. 负样本添加
    • 在目标检测任务中,加入适量的负样本(即不包含目标的图像)到训练集中,有助于模型更好地学习背景信息,减少误检。

二、模型优化

  1. 网络结构优化
    • 尝试使用更深或更宽的网络架构,或者使用先进的模型版本,如YOLOv4、YOLOv5等,以提高模型的表达能力。
    • 引入注意力机制,帮助模型关注图像中重要的区域,提高检测精度。
  2. 特征提取与融合
    • 优化Backbone网络,选择或设计具有更好特征提取能力的网络结构,如Darknet53、ResNet等。
    • 在Neck网络中引入SPP、FPN、PAN等结构,融合不同尺度的特征图,提高模型对不同大小目标的检测能力。
  3. 检测头优化
    • 根据任务需求选择合适的检测头,如YOLO Head、Anchor-based Head或Free Anchor Head等。
    • 调整锚框(Anchor)的尺寸和比例,使其更适应训练数据集中目标的大小和形状。

三、训练策略

  1. 预训练模型
    • 使用在大规模数据集上预训练的模型进行迁移学习,可以加速收敛并提高性能。
  2. 超参数调整
    • 仔细调整学习率、批量大小、迭代次数等超参数,以获得更好的训练效果。
    • 使用学习率调度策略,如SGDR(带有热重启的随机梯度下降),帮助模型在训练过程中更好地收敛。
  3. 损失函数优化
    • 根据任务需求选择适当的损失函数,或调整损失函数的权重,以更好地优化模型。
    • 尝试使用复合损失函数,结合分类损失和回归损失,同时优化模型的分类和定位能力。

四、后处理优化

  1. 非极大值抑制(NMS)
    • 使用NMS算法去除重叠的边界框,得到最终的检测结果。
    • 可以尝试改进NMS算法,如Soft-NMS等,以提高模型的召回率和精确率。
  2. 结果过滤与验证
    • 设计合适的后处理策略,对检测结果进行过滤和验证,以减少误报和漏报。
    • 可以基于置信度阈值、类别概率等条件对检测结果进行筛选。

五、硬件与软件优化

  1. GPU加速
    • 利用GPU的并行计算能力加速模型的训练和推理过程。
    • 使用CUDA和cuDNN等库优化GPU上的计算性能。
  2. 框架选择与调优
    • 选择合适的深度学习框架(如PyTorch、TensorFlow等),并根据具体任务进行调优。
    • 利用框架提供的优化工具和技巧,如混合精度训练等,提高模型的训练速度和性能。

模型训练过程中过拟合问题的解析

Q:用模型训练发现它识别垃圾桶满意这种情况的能力比较差,然后又把训练集中跟垃圾带垃圾满意的这种标签拿出来又训练了一下模型,但是事实上,它训练完之后,他只能识别垃圾满意了,识别的类型的能力反而失去了,这是为什么?

A:可以分为两个过程:进标和出标。进标阶段注重数据准备和预处理,确保模型训练的基础数据质量;出标阶段则关注模型训练、评估与输出,确保模型在实际应用中的性能表现。通过不断优化这两个阶段的工作流程,可以不断提升模型的识别能力和泛化能力。

目标检测模型选择与优化策略

Q:有无非多模态的比YOLO大一些的目标检测模型

A:一些比YOLO大且性能可能更优的非多模态目标检测模型:R-CNN系列模型或Mask R-CNN

Q:YOLO有能力不光识别出安全帽,而且还能识别出它的颜色吗

A:YOLO模型在训练过程中可以学习到目标的颜色特征。当训练数据集中包含不同颜色的安全帽,并且这些颜色被明确标注为不同的类别时,YOLO模型就能够学习到这些颜色特征并进行分类。

分享一个打标的软件:Anylabeling。可以将模型导入Anylabeling,辅助标注未标注的数据

端到端模型的优势与应用

1.端到端训练:DETR摒弃了传统目标检测中的候选框生成、非极大值抑制(NMS)等后处理步骤,实现了真正的端到端训练。这不仅简化了检测流程,还提高了模型的计算效率和整体性能。

2.基于Transformer:DETR采用了Transformer编码器-解码器架构,利用Transformer的自注意力机制来捕捉图像中的全局上下文信息,从而实现对目标的准确检测。这种设计使得DETR在处理复杂场景和重叠目标时具有更强的能力。

3.集合预测:DETR将目标检测任务视为一个集合预测问题,通过一组固定的对象查询(object queries)来并行输出最终的预测结果。这种并行处理方式使得DETR在处理多目标检测任务时更加高效。

4.新的损失函数:DETR引入了一种新的基于集合的损失函数,通过二分图匹配的方法强制模型输出一组独一无二的预测框,从而避免了NMS等后处理步骤的需要。

上分点一:数据集增强

数据增强是机器学习和深度学习中常用的技术,用于通过从现有数据集中生成新的训练样本来提高模型的泛化能力。干净一致的数据对于创建性能良好的模型至关重要。常见的增强技术包括翻转、旋转、缩放和颜色调整。多个库,例如 Albumentations、Imgaug 和 TensorFlow的 ImageDataGenerator,可以生成这些增强。

数据增强方法描述
Mosaic Augmentation将四张训练图像组合成一张,增加物体尺度和位置的多样性。
Copy-Paste Augmentation复制一个图像的随机区域并粘贴到另一个图像上,生成新的训练样本。
Random Affine Transformations包括图像的随机旋转、缩放、平移和剪切,增加对几何变换的鲁棒性。
MixUp Augmentation通过线性组合两张图像及其标签创造合成图像,增加特征空间的泛化。
Albumentations一个支持多种增强技术的图像增强库,提供灵活的增强管道定义。
HSV Augmentation对图像的色相、饱和度和亮度进行随机变化,改变颜色属性。
Random Horizontal Flip沿水平轴随机翻转图像,增加对镜像变化的不变性。

如下图所示,是一个数据集增强的效果示例,针对原有数据集进行了翻转、随机拼贴、剪切等处理:

参数名类型默认值取值范围描述
hsv_hfloat0.0150.0 - 1.0调整图像色调,引入颜色变异性,提高不同光照下的泛化能力。
hsv_sfloat0.70.0 - 1.0调整图像饱和度,改变颜色强度,模拟不同环境条件。
hsv_vfloat0.40.0 - 1.0调整图像亮度,帮助模型在不同光照下表现良好。
degreesfloat0-180 - +180随机旋转图像,提高识别不同方向物体的能力。
translatefloat0.10.0 - 1.0平移图像,帮助模型学习检测部分可见物体。
scalefloat0.5>=0.0缩放图像,模拟物体与相机之间的不同距离。
shearfloat0-180 - +180剪切图像,模拟从不同角度观察物体的效果。
perspectivefloat00.0 - 0.001应用随机透视变换,增强模型对3D空间物体的理解能力。
flipudfloat00.0 - 1.0上下翻转图像,增加数据变异性,不影响物体特征。
fliplrfloat0.50.0 - 1.0左右翻转图像,有助于学习对称物体和增加数据集多样性。
bgrfloat00.0 - 1.0翻转图像通道从RGB到BGR,提高对通道顺序错误的鲁棒性。
mosaicfloat10.0 - 1.0合成四张图像,模拟不同场景组合和物体交互,增强复杂场景理解。
mixupfloat00.0 - 1.0混合两张图像及标签,创建合成图像,增强泛化能力。
copy_pastefloat00.0 - 1.0复制物体并粘贴到另一图像,增加实例和学习遮挡。
auto_augmentstrrandaugment-自动应用预定义增强策略,优化分类任务。
erasingfloat0.40.0 - 0.9随机擦除图像部分,鼓励模型关注不明显特征。

上分点二:设置 YOLO 模型训练参数

https://docs.ultralytics.com/usage/cfg/#train-settings

YOLO 模型的训练设置包括多种超参数和配置,这些设置会影响模型的性能、速度和准确性。微调涉及采用预先训练的模型并调整其参数以提高特定任务或数据集的性能。该过程也称为模型再训练,使模型能够更好地理解和预测在实际应用中将遇到的特定数据的结果。您可以根据模型评估重新训练模型,以获得最佳结果。

通常,在初始训练时期,学习率从低开始,逐渐增加以稳定训练过程。但是,由于您的模型已经从以前的数据集中学习了一些特征,因此立即从更高的学习率开始可能更有益。在 YOLO 中绝大部分参数都可以使用默认值。

  1. imgsz: 训练时的目标图像尺寸,所有图像在此尺寸下缩放。

  2. save_period: 保存模型检查点的频率(周期数),-1 表示禁用。

  3. device: 用于训练的计算设备,可以是单个或多个 GPU,CPU 或苹果硅的 MPS。

  4. optimizer: 训练中使用的优化器,如 SGD、Adam 等,或 'auto' 以根据模型配置自动选择。

  5. momentum: SGD 的动量因子或 Adam 优化器的 beta1。

  6. weight_decay: L2 正则化项。

  7. warmup_epochs: 学习率预热的周期数。

  8. warmup_momentum: 预热阶段的初始动量。

  9. warmup_bias_lr: 预热阶段偏置参数的学习率。

  10. box: 边界框损失在损失函数中的权重。

  11. cls: 分类损失在总损失函数中的权重。

  12. dfl: 分布焦点损失的权重。

在YOLOv5及其后续版本中,imgsz可以被设置为一个整数,用于训练和验证模式,表示将输入图像调整为正方形的尺寸,例如imgsz=640意味着图像将被调整为640x640像素。对于预测和导出模式,imgsz可以被设置为一个列表,包含宽度和高度,例如imgsz=[640, 480],表示图像将被调整为640像素宽和480像素高。较大的图像尺寸可能会提高模型的准确性,但会增加计算量和内存消耗。较小的图像尺寸可能会降低模型的准确性,但会提高计算速度和内存效率。因此,用户应根据实际场景需求及硬件资源限制,设置合适的输入图像尺寸

上分点三:设置 YOLO 模型预测行为和性能

提高速度、

YOLO模型的预测结果通常包括多个组成部分,每个部分提供关于检测到的对象的不同信息。同时 YOLO 能够处理包括单独图像、图像集合、视频文件或实时视频流在内的多种数据源,也能够一次性处理多个图像或视频帧,进一步提高推理速度。

属性描述
cls类别概率,表示当前预测结果属于类别0的概率为0。
conf置信度,模型对其预测结果的置信度,接近92%。
data包含边界框坐标和置信度以及类别概率的原始数据。
id没有分配唯一的对象ID。
is_track预测结果不是来自跟踪的对象。
orig_shape输入图像的原始尺寸,这里是500x500像素。
shape预测结果张量的形状,表示一个边界框的六个值。
xywh归一化的边界框坐标,中心坐标和宽高。
xywhn归一化的边界框坐标(无偏移)。
xyxy原始边界框坐标,左上角和右下角坐标。
xyxyn归一化的原始边界框坐标。
from ultralytics import YOLO

# Load a model
model = YOLO("yolov8n.pt")  # pretrained YOLOv8n model

# Run batched inference on a list of images
results = model(["im1.jpg", "im2.jpg"])  # return a list of Results objects

# Process results list
for result in results:
    boxes = result.boxes  # Boxes object for bounding box outputs
    masks = result.masks  # Masks object for segmentation masks outputs
    keypoints = result.keypoints  # Keypoints object for pose outputs
    probs = result.probs  # Probs object for classification outputs
    obb = result.obb  # Oriented boxes object for OBB outputs
    result.show()  # display to screen
    result.save(filename="result.jpg")  # save to disk

YOLOv8模型的使用者提供了灵活性,允许根据特定应用场景的需求调整模型的行为和性能。例如,如果需要减少误报,可以提高conf阈值;如果需要提高模型的执行速度,可以在支持的硬件上使用half精度;如果需要处理视频数据并希望加快处理速度,可以调整vid_stride来跳过某些帧。这些参数的适当配置对于优化模型的预测性能至关重要。

参数名类型默认值描述
conffloat0.25置信度阈值,用于设置检测对象的最小置信度。低于此阈值的检测对象将被忽略。调整此值有助于减少误报。
ioufloat0.7非最大值抑制(NMS)的交并比(IoU)阈值。较低的值通过消除重叠的边界框来减少检测数量,有助于减少重复项。
imgszint 或 tuple640推理时定义图像的大小。可以是单个整数(如640),用于将图像大小调整为正方形,或(height, width)元组。合适的尺寸可以提高检测精度和处理速度。
augmentboolFALSE启用预测时的数据增强(TTA),可能通过牺牲推理速度来提高检测的鲁棒性。

参考资料:

- https://docs.ultralytics.com/modes/predict/#inference-arguments

- https://docs.ultralytics.com/yolov5/tutorials/tips_for_best_training_results/?h=result#model-selection

- https://docs.ultralytics.com/yolov5/tutorials/test_time_augmentation/

  • 22
    点赞
  • 25
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值