1、OpenMMLab概述
- 总体框架
各种开源算法库
https://github.com/open-mmlab
- 目标检测算法库MMDetection:目标检测、实例分割、全景分割
算法:一/两阶段检测器、级联检测器、无锚框检测器、Transformer - 目标检测算法库MMYOLO:目标检测、实例分割
- 文字检测识别算法库MMOCR:数字、中文、英文
项目:AI自动给文字区域打马赛克、发票信息提取、Kaggle CAPTCHA验证码文本识别- 文本监测:把图像上的文本区域抠出来/画出来
- 文本识别:把文字的内容识别出来
- 关键信息提取:结构化数据(票据、牌照、证件)提取
- 3D目标靠目测算法库:MMDetection3D
- 无人驾驶:激光雷达和毫米波雷达感知车周围的3D点云数据进行检测
- 旋转目标检测算法库:MMRotate Bbox有方向
- 图像分割算法库:MMSegmentation 特别是语义分割
项目:Kaggle 小鼠肾小球组织病理切片图像分割、迪拜卫星遥感图像分割、钢轨裂纹分割提取- 街景(交通标制、马路牙子)、无人驾驶、遥感、医疗(病灶肿瘤区域)
- 给每一个像素分类
- 图像分类+预训练+多模态算法库:MMPretrain
- 图像分类、图像描述、视觉问答、视觉定位、检索(文图互相检索)
- 主干网络:CNN、VIT
- 自监督策略:对比学习、掩码学习
- 多模态算法:BLIP、OFA
- 姿态估计算法库:MMPose
- 维度-2D/3D、格式-图像/视频、表示形式-形状/关键点、部位-全身/人脸/人手
- 人体/手部2D关键点、人体/手部3D关键点、脸部关键点、服装关键点、动物姿态估计
- RTMPose:高精度多人人体姿态估计、AI中医穴位辅助定位、小小运动家
- 三维人体姿态估计算法库:MMHuman3D
- 动作捕捉、球类运动、交通事故模拟
- 视频动作识别算法库:MMAction2
- 无法通过单帧照片处理,需要上下帧之间的时间序列
- 行为识别、时序动作检测、时空动作检测、手语翻译
- 生产模型+底层视觉+AIGC算法库:MMagic
- 文生图、图像去噪、视频超分辨率和插帧、条件/非条件对抗网络
- 趣味应用游乐场MMPlayground
- 目标追踪MMTracking、照片风格迁移CycleGAN
- 模型部署工具箱MMDeploy
- 部署场景