1、图像分类(Image Classification)
判断图像中物体的类别。
应用
安防领域的人脸识别和智能视频分析,交通领域的交通场景识别,互联网领域基于内容的图像检索和相册自动归类,医学领域的图像识别等。
常用网络模型 | 常用数据集 |
• LeNet • AlexNet • VGG • GoogLeNet • ResNet • ResNeXt • MobileNet_V1_V2 • MobileNet_V3 • ShuffleNet_V1_V2 • EfficientNet_V1 • EfficientNet_V2 • RepVGG • Vision Transformer • Swin Transformer • ConvNeXt • MobileViT | • CIFAR-10 • MNIST • STL_10 • Imagenet • L_Sun • caltech-101 |
2、目标检测(Object Detection)
识别图像中的感兴趣的目标,并确定类别及位置,同一类别的用矩形框框起来,填充相同的颜色。
应用
人脸检测,车辆检测,行人检测,遥感检测,自动驾驶,安全系统等
常用网络模型 | 常用数据集 |
• Faster-RCNN/FPN • SSD/RetinaNet • YOLO Series (YOLOV1-5 ) • FCOS | • Pascal VOC(VOC2007,VOC2012) • ILSVRC • MS-COCO • Open Images(OID) • ImageNet |
3、语义分割(Semantic Segmentation)
像素级分割。处理图像时,具体到像素级别。只能判断类别,但不能区分个体。
应用
人脸识别、物体检测、医学影像、卫星图像分析、自动驾驶感知等领域
常用网络模型 | 常用数据集 |
|
|
4、实例分割(Instance segmentation)
目标检测和语义分割的结合,在图像中将目标检测出来,用矩形框将目标框起来,填充不同颜色,可以区分单个个体。
应用
地理信息系统、医学影像、自动驾驶、机器人等领域。
常用网络模型
• Mask R-CNN
常用数据集
• COCO