1. 计算机视觉的基础任务
- 定义:使用算法对图片、视频等数据进行挖掘处理
- 三大关键任务:图像分类问题(无需知道像素之间的关系)、目标检测(在图像分类基础上增加目标信息和位置信息)、图像分割。Localization:图像中只有一个物体,只需要定位着一个物体
- 语义分割、实例分割(区分每一个同类物体)、关键点检测
- 总之,都是模式识别和数据挖掘
- 实例分割最难,图像分割最简单。
2. 经典网络
- Alexet出现后,使计算机视觉准确率大大提高:AlexNet, ZFNet, GoogLeNet, ResNet, DenseNet, SENet。
用深度神经网络做数据挖掘问题。
3.例子
- 人脸识别:通用目标检测和专用目标检测
- 无人驾驶避障、车道线检测。
- 图像生成、风格迁移
- 视频理解与自动剪辑
4.计算机视觉的发展:
- ImageNet在2006年建立;
- AlexNet突破传统视觉系统性能;
- Fast R-CNN目标检测走入深度学习时代;
- 深度生成对抗网络实现图像生成;
- 众多深度学习框架涌现
5.算法框架介绍
- MMDetection:目标检测、实例分割、全景分割(加入全景感知)
- MMDetection3D:物体具有3D坐标
- MMClassification
- MMSegmentation
- MMEditing
换config文件就可以实现不同模型在同一数据集上的跑分