1.图像分类(ResNet)
任务定义:对整张图像进行全局类别判断,输出离散标签(如识别图像中的动物种类)。
核心原理:
- 残差学习:通过引入残差块(Residual Block),解决深层网络训练中的梯度消失问题,允许构建超百层的网络(如ResNet-152)。
- 跳跃连接:将输入特征直接传递到后续层,保留原始信息,提升特征复用能力。
应用场景: - 通用图像分类(如ImageNet竞赛);
- 医学影像的初步筛查(如X光片分类);
- 作为其他任务(如目标检测)的基础特征提取网络。
2.目标检测(YOLO)
任务定义:定位图像中的目标位置(边界框)并判断其类别(如检测行人、车辆)。
核心原理:
- 单阶段检测:将检测视为回归问题,直接通过卷积网络预测边界框坐标、置信度和类别概率,显著提升速度。
- 网格划分:将输入图像划分为S×S网格,每个网格预测多个边界框,通过非极大值抑制(NMS)筛选最优结果。
应用场景: - 自动驾驶中的实时障碍物检测;
- 视频监控中的多目标跟踪;
- 工业质检中的缺陷定位。
3.图像分割(U-Net)
任务定义:对图像进行像素级分类,输出分割掩膜(如区分医学图像中的肿瘤区域)。
核心原理:
- U型对称结构:编码器(下采样)提取特征,解码器(上采样)恢复空间信息,跳跃连接融合浅层细节与深层语义。
- 全卷积设计:无全连接层,支持任意尺寸输入,适用于高分辨率图像。
应用场景: - 医学影像分割(如CT/MRI中的器官分割);
- 卫星图像的土地覆盖分类;
- 自动驾驶中的道路和行人分割。
三者对比
维度 | 图像分类(ResNet) | 目标检测(YOLO) | 图像分割(U-Net) |
---|---|---|---|
输出形式 | 单一类别标签 | 多目标边界框+类别标签 | 逐像素类别掩膜 |
计算复杂度 | 中等(依赖网络深度) | 高(需处理多尺度目标) | 高(需处理高分辨率像素) |
典型应用 | 静态图像分类 | 动态场景实时检测 | 医学/遥感像素级分析 |