有幸加入AI实战营,接触到OpenMMLab,一个人工智能,深度学习,计算机视觉,开源算法体系。通过第一节理论课的概述,了解到不少相关的内容,第一次听直播的时候觉得懵懵的,不太听得懂,今天又听了一次回放,清晰了不少,确实,OpenMMLab是一个非常实用的东西,也是现在很多科研或者应用的最佳选择,不论是在我们的日常生活还是公司企业内以及医疗等等各方面都有涉及到,通过概述课了解到很多训练模型,下面简单总结一下。
MMDetection 目标检测算法库。在学术界和工业界都是应用非常广泛且是最佳选择,提供了大量开箱即用的预训练模型,带来了很大的方便。
MMYoLo 目标检测算法库。主要用来目标检测,实例分割等。
MMOCR 文字检测识别算法库。有文本检测、文字识别、关键信息提取等功能。
MMDetection3D 3D目标检测算法库。在无人驾驶方面应用的多。
MMRotate 旋转目标检测算法库。不同于其他,这个是有方向的,例如检测路上的汽车时,不单单是方形框,而是可以精确定位到汽车,用恰好的汽车轮廓的框来定位检测。
MMSegmentation 图像分割算法库。语义分割。应用场景有街景、无人驾驶、遥感图像、医疗等进行分类。例如街景中对交通标志、车道线等分类,遥感图像中河流、山地、农田面积等,医疗方面肿瘤区域进行定位检测分类等。
MMPretrain 图像分类+预训练+多模态算法库。有图像分类、图像描述、视觉问答、视觉定位、检索等。包含了丰富的主干网络,多种自监督策略、对比学习、掩码学习,前言的多模态算法。同时提供了详细的文档教程。
MMPose 姿态估计算法库。对人脸、人体、手、动物、服装等进行关键点检测。例如在踢球时,识别关节和骨架,形成一个火柴人,定量衡量其行为、动作、姿态等,还例如对健身打分就是一个实例。
MMHuman3D 三维人体姿态估计算法库。用3D数字人来拟合真人,在动作捕捉、虚拟现实领域,比如足球比赛的模拟,交通事故的模拟,竞技类中使用到。
MMAction2 视频动作识别算法库。有行为识别、时序动作检测、时空动作检测等。例如手语翻译,就必须借助到这个训练模型,将动态的行为识别检测。
MMagic 生成模型+底层视觉+AIGC算法库。从名字可以看出,是需要到“魔法”的,在人工智能中,AI画画,图像去噪,超分辨率(将模糊的图片变清楚),插帧(将很卡的视频变得流畅),图像填充(还原打马赛克的部分,被涂鸦、消除的部分等)等。
有训练模型还不够,要将模型部署,那么相对应的要应对一些挑战:快速实时、本地终端、硬件多样、算力薄弱、数据隐私。例如无人驾驶就需要实时检测,否则将出现大问题。
模型部署的工具箱有MMDeploy。用来把前面提到的训练模型转换和部署成通用的。
以上都是概述的内容,通过概述我们可以了解到不同的训练模型有什么作用,帮助我们更直观的理解,当然要进一步学习还是要自己动手,实现出来,对这些会有更深刻的理解。可能对上面的内容有一些理解的偏差和不准确,希望包涵,留言指出哦。
接下来的课程就需要实操了,希望我自己可以跟下来,在不断遇到问题和解决问题中成长进步,学到更多的内容!