OpenMMLabAI实战营1.计算机视觉与OpenMMlab开源算法体系笔记

最新推荐文章于 2024-07-13 17:45:00 发布

披着影子的狼

最新推荐文章于 2024-07-13 17:45:00 发布

阅读量146

点赞数

分类专栏： OpenMMLabAI实战营笔记文章标签：计算机视觉深度学习

本文链接：https://blog.csdn.net/weixin_43491068/article/details/128857813

版权

OpenMMLabAI实战营笔记专栏收录该内容

7 篇文章 1 订阅

订阅专栏

文章概述了从2012年的AlexNet到ResNet在图像识别领域的进步，包括目标检测、分割和视频理解的任务。它强调了深度学习模型如CNN在处理图像和视频中的作用，以及MMLAB框架在相关领域的贡献。

摘要由CSDN通过智能技术生成

视频链接

基础知识

可执行任务

Classification 分类
Semantic Segmention 与原图相同的长宽
精准定位
Detection 框
Segmention 分割

分类、检测（定位）、分割
图像识别
按目标划分：通用目标检测、专用
图像生成（例地图生成）
视频理解：时间

发展历史

2012年 AlexNet 大幅下降
2015 ResNet 超越人类分辨 152 层
1860-80
1960 边缘检测
1991 人脸检测 Eigen Face
视觉特征卷积核
人工设计不鲁棒学习特征核
大型数据库 ImageNet 2006
2010 人工设计HOG、LBP
2012 AlexNet
GAN 图像生成
AIGC、大模型、Nerf（神经渲染）
2018 OpenMMlab

MMLAB框架

MMDet 目标检测、实例分割、全景分割
MMDet3D 点云数据
MMCls 分类
MMSeg 语义分割
MMPose 骨骼 MMHuman3D 人体重建
MMtracking 追踪
MMaction2 行为识别
MMOCR 文本识别
MMEditing 修复、超分辨率、生成、抠图
特点：调包、画好重点、前沿

Torch及机器学习知识

机器学习数据中学习经验，解决特定问题
监督学习、无监督学习、自监督学习（前预测后）、强化学习（获得最大收益）
原始转成特征再进行分类
线性分类器始终为平面，可写为矩阵即wx+b
非线性分类 +非线性激活层
学习解决步骤、训练、验证、应用

训练

损失函数交叉熵损失
L(P,y)=-log(P_y)
优化器梯度下降 Adam 加动量逃离最小值
反向传播，对各个参数求偏导
训练过度造成过拟合

CNN

卷积神经网络 CNN 考虑二维结构
卷积层-激活层-池化层
卷积核通道数与输入通道数相同
卷积核个数与输出通道数相同
H 高 F核大小 p填充 s 步长
$H^{\prime}=\left\lfloor\frac{H-F+2 p}{S}\right\rfloor+1$
池化最大池化、平均池化
全连接层
概率输出层