mmlab的ai训练营第一课的课堂笔记

最新推荐文章于 2024-07-25 10:27:09 发布

gaxzj

最新推荐文章于 2024-07-25 10:27:09 发布

阅读量127

点赞数

文章标签：人工智能深度学习计算机视觉

本文链接：https://blog.csdn.net/gaxzj/article/details/128849658

版权

第一课笔记

计算机视觉目前已经有几十年的发展历史，早期的视觉技术只能对图像进行简单的处理，无法进行高层次的语义的理解。随着深度学习的发展，以AlexNet，vgg，resnet为代表的卷积神经网络，充分利用大规模的图像数据集ImageNet，目前在分类的任务上指标已经超过了人类。
现在的计算机视觉技术不仅能够进行图像的分类，目标检测，图像分割等任务，还能进行图像生成能具有创造性的工作，应用的领域包括工业视觉中的缺陷检测，医疗领域的病灶检测，自动驾驶，以及各种视频创作。这些巨大的需求增加了也使得各种AI工具层出不穷，早先的深度学习开源框架有caffe，theano，torch，mxnet，tensorflow，后来facebook的pytorch横空出世，由于其易用性，在与tensorflow的竞争中逐渐占据上风。基于pytorch开源一系列的深度学习算法对繁荣计算机视觉社区具有很大的作用。这种mmlab实验室开源的openmmlab系列在一系列开源算法中可谓是独树一帜，其开源系列涉及了几乎所有的计算机视觉技术，包括分类，检测，分割，跟踪，图像生成，关键点检测，还涉及mmdeploy，mmrazor这些用于模型部署的开源库。
openmmlab的开源库具有统一的接口，基本涵盖了该领域经典的算法，可以说从mmlab入手计算机视觉领域的话可以避免初学者很多不必要的弯路，对着开源代码学习去读论文，能够注意到一些作者没有表达的训练技巧。同时openmmlab框架的设计，使得模型训练者可以很方便的记录自己训练是的相关配置，方便自己进行试验记录，想尝试实现自己的一个operation也比较方便，直接在原有的框架进行扩展就可以，非常符合开放封闭的设计原则。最近openmmlab全面更新2.0系列，在原有基础上抽象出更多的模块，统一训练流程和数据接口，降低在mmcls,mmdet, mmseg之间的学习成本，也更有利于计算机视觉研究者举一反三成为一个计算机视觉技术的多面手。
最后课程介绍了机器学习和卷积神经网络的基本概念，机器学习就是如何从数据中进行学习的一门学科，简单的入门概念就是线性分类器，以高考试卷为例解释了训练，验证，测试这些概念。卷积神经网络是深度学习的基础，卷积神经网络是一种强大的非线性分类，设计损失函数，利用链式法则，采用反向传播的方法计算隐含层的梯度，并运用梯度下降法优化模型参数。