神经网络与深度学习（第三周）-CSDN博客

本文链接：https://blog.csdn.net/qq_50306953/article/details/138049696

一.评价指标

在计算机视觉的应用中，模型性能通常通过几个关键指标来评估：

准确率：预测正确的比例。
召回率：模型正确识别出真实正例的比例。
精确率：模型预测为正例的样本中正确的比例。
F1得分：精确率和召回率的调和平均。

算法评估相关概念

TP: 被正确地划分为正例的个数，即实际为正例且被分类器划分为正例的实例数

FP: 被错误地划分为正例的个数，即实际为负例但被分类器划分为正例的实例数

FN:被错误地划分为负例的个数，即实际为正例但被分类器划分为负例的实例数

TN: 被正确地划分为负例的个数，即实际为负例且被分类器划分为负例的实例数
平均精度：通常用于目标检测任务，衡量模型在不同阈值下的性能。
交并比：预测框和真实框之间的重叠程度。
损失函数：例如交叉熵损失、均方误差等，衡量模型在训练过程中与真实值的偏差。

这些指标帮助研究人员和工程师评估模型的表现，并指导模型的优化。

置信度与准确率

可以通过改变阈值（也可以看作上下移动蓝色的虚线），来选择让系统识别能出多少个图片，当然阈值的变化会导致Precision与 Recall值发生变化。比如，把蓝色虚线放到第一张图片下面，也就是说让系统只识别出最上面的那张飞机图片，那么Precision的值就是100%，而Recall的值则是20%。如果把蓝色虚线放到第二张图片下面，也就是说让系统只识别出最上面的前两张图片，那么 Precision的值还是100%，而Recall的值则增长到是40%。

二.目标检测与YOLO网络

目标检测是一种在图像中识别和定位多个物体的技术。YOLO（You Only Look Once）是最受欢迎的目标检测模型之一。它将检测任务看作一个回归问题，直接从图像中预测出物体的位置和类别。YOLO的特点是速度快，适用于实时应用场景。

YOLO的主要版本有YOLOv1、YOLOv2、YOLOv3、YOLOv4和YOLOv5等。每个版本都在前一版本的基础上进行了改进，提高了准确性和效率。YOLO的优势在于其统一的网络架构，使得模型能够在一次前向传播中同时完成分类和定位任务。

滑动窗口的改进 ➢

一般图片中，大多数位置都不存在目标。 ➢ 可以确定那些更有可能出现目标的位置，再有针对性的用CNN进行检测——两步法（Region Proposal） ➢ 两步法依然很费时！ ➢ 进一步减少出现目标的位置，而且将目标分类检测和定位问题合在一个网络里——一步法（YOLO)

YOLO的包围框

我们有 𝑠 2个框，每个框的bb个数为𝐵，分类器可以识别出𝐶种不同的物体，那么所有整个ground truth的长度为𝑆 × 𝑆 × (𝐵 × 5 + 𝐶) YOLO v1中，这个数量是30 YOLO v2和以后版本使用了自聚类的anchor box为bb, v2版本为𝐵 = 5, v3中 𝐵 =9

NMS算法要点

1. 首先丢弃概率小于预定IOU阈值（例如0.5）的所有边界框；对于剩余的边界框： 2. 选择具有最高概率的边界框并将其作为输出预测； 3. 计算 “作为输出预测的边界框”，与其他边界框的相关联IoU 值；舍去IoU大于阈值的边界框；其实就是舍弃与“作为输出预测的边界框” 很相近的框框。 4. 重复步骤2，直到所有边界框都被视为输出预测或被舍弃

三.语义分割

语义分割是一种将图像中的每个像素分类到特定类别的技术。例如，将一幅街景图像中的行人、车辆和道路等区域分割出来。语义分割常用的模型包括U-Net、DeepLab和Mask R-CNN等。

U-Net：最初用于医学图像分割，因其高效的编码解码结构而在其他领域得到了广泛应用。
DeepLab：采用空洞卷积和条件随机场后处理来提高分割精度。
Mask R-CNN：一种对象检测和分割相结合的模型，能够同时进行对象检测、语义分割和实例分割。

四.风格迁移

风格迁移是一种通过深度学习将一种图像的风格应用于另一幅图像的技术。这项技术通常通过训练神经网络来学习艺术风格，并将其应用于目标图像。例如，将梵高的画作风格应用于一张照片。

这项技术的主要方法是基于卷积神经网络的特征映射，通过调整目标图像的损失函数使其接近于参考图像的风格。风格迁移在艺术创作和图像处理中非常流行。

五.未来展望

深度学习在计算机视觉中的未来发展方向包括：

更高效的模型：研究者将继续优化模型结构，提高性能并降低计算成本，以便在移动设备等资源有限的环境中运行。
多任务学习：模型能够同时执行多种任务，例如对象检测和语义分割的组合。
自监督学习：利用大量未标记数据进行训练，减少对人工标注的依赖。
无监督学习：通过学习数据的内部结构自动发现模式和特征。
强化学习与视觉结合：结合强化学习和视觉技术，应用于复杂的决策和控制任务，例如自驾车和机器人导航。
应用扩展：深度学习视觉技术将继续在医疗、农业、制造等领域得到广泛应用。

随着计算机视觉技术的不断进步，深度学习将在更多领域发挥重要作用，为人类生活和生产带来更大的便利和创新。