一、概述
深度学习框架发展历程如下:
OpenMMlab诞生于2018年,是一个由中国开发主导,有国际影响力的人工智能计算机视界开源算法体系,并且在2022年的世界人工智能大会上,OpenMMlab2.0发布。
每一种计算机视觉任务都可以对应OpenMMlab在github上的一个开源算法库,目前OpenMMlab已经开源了超过30个算法库,OpenMMlab的发展历程以及包含的算法库如下图:
OpenMMlab的总体框架如下图:
二、在OpenMMlab中代表算法库:
1.1 目标检测算法库(MMDetection)
它可以解决目标检测、实例分割、全景分割和目标追踪任务
目前MMDetection的模型库,不仅涵盖了目标检测领域必读必会的论文模型,还涵盖了领域最新的顶会论文模型,如下图:
1.2 目标检测算法库(MMYOLO)
专门解决YOLO目标检测问题,YOLO(you only look once),是经典的单阶段目标检测算法,特点是特别快
2. 文字检测识别算法库(MMOCR)
解决文本检测问题(把图像的文本区域抠出来)、文本识别问题(把文本的内容识别出来)、关键信息提取问题(对结构化的票据,证件拍照来进行信息的提取)
案例:AI给视频的文本区域自动打马赛克,对发票信息的提取
3. 3D目标检测算法库(MMDetection3D)
专门做3D目标检测的算法库,在无人驾驶中使用的特别多,要通过激光雷达和毫米波雷达感知无人驾驶车周围的3D点云数据来进行3D目标检测
4. 旋转目标检测算法库(MMRotate)
专门做旋转目标检测算法库,在传统目标检测框是横平竖直的,然而在旋转目标检测框是有方向的
5. 图像分割算法库(MMSegmentation)
专门做图像分割特别是语义分割的算法库,在街景、无人驾驶、遥感图像、医疗领域语音分割都是非常重要的算法,给每一个像素进行分类,用来识别医疗影像的病灶区域、肿瘤区域,遥感图像中的河流山地农田的面积,街景中的交通标志和其他车的位置以及车道线。
目前MMSegmentation的模型库收录了以下论文模型:
6. 图像分类+预训练+多模态算法库(MMPretrain)
图像分类:输入一张图像,AI给出各个类别的概率,概率最高的就是识别出来的类别
图像描述:输入一张图像,AI用文字给出一段描述图片的话
视觉问答:输入一张图像,AI用文本给出问题的答案,既有文本又有图像是多模态的学习
视觉定位:输入一张图像,让AI识别什么就在什么上面画一个框
目前MMPretrain的模型库收录了以下论文模型:
7. 姿态估计算法库(MMPose)
姿态估计就是关键点检测,支持手部2D、3D关键点检测,人体2D、3D关键点检测,脸关键点检测,服装关键点检测、动物姿态估计
其中高精度姿态估计算法RTMPose是MMPose里的一个算法库,优势是高精度和实时性
8. 三维人体姿态估计算法库(MMHuman3D)
使用一个3d的模型来包络出人体
9. 视频动作识别算法库(MMAction2)
是一个视频动作识别的算法库,可以实现动作识别,时序检测和时空检测,输入一段视频,AI会给出视频里的人此时正在做什么。
10. 生成模型+底层视觉+AIGC算法库(MMagic)
用于AIGC人工智能生成内容,比如AI画画,图像去噪、重建超分辨率,去物视频的超分辨率和插帧,黑白照片的上色,图像的填充
三、模型终端部署应用场景
目前的硬件:
PC、浏览器、手机APP、微信小程序、服务器、嵌入式开发板无人车、无人机、Jetson Orin Nanco、树莓派、机械臂、物联网设备
目前的芯片:
CPU、GPU、TPU、NPU、VPU、DSP、FPGA.......
目前的厂商:
英特尔、英伟达、AMD、苹果、高通、昇腾、麒麟、瑞芯微.......
模型部署工具箱(MMDeploy)
对训练好的模型进行转换和部署,将模型转换成通用的ONNX和TorchScript,接着用各种推理框架和推理后端进行部署,流程图如下: