【笔记】计算机视觉｜开源计算机视觉神器OpenMMLab-CSDN博客

本文链接：https://blog.csdn.net/munan52/article/details/130997969

OpenMMLab是一个全面的开源计算机视觉算法库，包括MMDetection（目标检测、实例分割、全景分割）、MMYOLO（目标检测）、MMOCR（文本检测与识别）、MMDetection3D（3D目标检测）、MMSegmentation（图像分割）、MMPretrain（图像分类与预训练）、MMPose（姿态估计）等，覆盖从2D到3D，图像到视频的各种任务，同时提供模型部署工具MMDeploy。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

1、OpenMMLab概述

总体框架

在这里插入图片描述

各种开源算法库

https://github.com/open-mmlab

目标检测算法库MMDetection：目标检测、实例分割、全景分割
算法：一/两阶段检测器、级联检测器、无锚框检测器、Transformer
目标检测算法库MMYOLO：目标检测、实例分割
文字检测识别算法库MMOCR：数字、中文、英文
项目：AI自动给文字区域打马赛克、发票信息提取、Kaggle CAPTCHA验证码文本识别
- 文本监测：把图像上的文本区域抠出来/画出来
- 文本识别：把文字的内容识别出来
- 关键信息提取：结构化数据（票据、牌照、证件）提取
3D目标靠目测算法库：MMDetection3D
- 无人驾驶：激光雷达和毫米波雷达感知车周围的3D点云数据进行检测
旋转目标检测算法库：MMRotate Bbox有方向
图像分割算法库：MMSegmentation 特别是语义分割
项目：Kaggle 小鼠肾小球组织病理切片图像分割、迪拜卫星遥感图像分割、钢轨裂纹分割提取
- 街景（交通标制、马路牙子）、无人驾驶、遥感、医疗(病灶肿瘤区域)
- 给每一个像素分类
图像分类+预训练+多模态算法库：MMPretrain
- 图像分类、图像描述、视觉问答、视觉定位、检索（文图互相检索）
- 主干网络：CNN、VIT
- 自监督策略：对比学习、掩码学习
- 多模态算法：BLIP、OFA
姿态估计算法库：MMPose
- 维度-2D/3D、格式-图像/视频、表示形式-形状/关键点、部位-全身/人脸/人手
- 人体/手部2D关键点、人体/手部3D关键点、脸部关键点、服装关键点、动物姿态估计
- RTMPose：高精度多人人体姿态估计、AI中医穴位辅助定位、小小运动家
三维人体姿态估计算法库：MMHuman3D
- 动作捕捉、球类运动、交通事故模拟
视频动作识别算法库：MMAction2
- 无法通过单帧照片处理，需要上下帧之间的时间序列
- 行为识别、时序动作检测、时空动作检测、手语翻译
生产模型+底层视觉+AIGC算法库：MMagic
- 文生图、图像去噪、视频超分辨率和插帧、条件/非条件对抗网络
趣味应用游乐场MMPlayground
目标追踪MMTracking、照片风格迁移CycleGAN
模型部署工具箱MMDeploy