OpenMMLabAI实战营1.计算机视觉与OpenMMlab开源算法体系笔记

文章概述了从2012年的AlexNet到ResNet在图像识别领域的进步,包括目标检测、分割和视频理解的任务。它强调了深度学习模型如CNN在处理图像和视频中的作用,以及MMLAB框架在相关领域的贡献。
摘要由CSDN通过智能技术生成

视频链接

基础知识

可执行任务

Classification 分类
Semantic Segmention 与原图相同的长宽
精准定位
Detection 框
Segmention 分割

分类、检测(定位)、分割
图像识别
按目标划分:通用目标检测、专用
图像生成(例地图生成)
视频理解:时间

发展历史

2012年 AlexNet 大幅下降
2015 ResNet 超越人类分辨 152 层
1860-80
1960 边缘检测
1991 人脸检测 Eigen Face
视觉特征 卷积核
人工设计不鲁棒 学习特征核
大型数据库 ImageNet 2006
2010 人工设计HOG、LBP
2012 AlexNet
GAN 图像生成
AIGC、大模型、Nerf(神经渲染)
2018 OpenMMlab

MMLAB框架

MMDet 目标检测、实例分割、全景分割
MMDet3D 点云数据
MMCls 分类
MMSeg 语义分割
MMPose 骨骼 MMHuman3D 人体重建
MMtracking 追踪
MMaction2 行为识别
MMOCR 文本识别
MMEditing 修复、超分辨率、生成、抠图
特点:调包、画好重点、前沿

Torch及机器学习知识

机器学习 数据中学习经验,解决特定问题
监督学习、无监督学习、自监督学习(前预测后)、强化学习(获得最大收益)
原始转成特征再进行分类
线性分类器 始终为平面,可写为矩阵即wx+b
非线性分类 +非线性激活层
学习解决步骤、训练、验证、应用

训练

损失函数 交叉熵损失
L(P,y)=-log(P_y)
优化器 梯度下降 Adam 加动量逃离最小值
反向传播,对各个参数求偏导
训练过度造成过拟合

CNN

卷积神经网络 CNN 考虑二维结构
卷积层-激活层-池化层
卷积核通道数与输入通道数相同
卷积核个数与输出通道数相同
H 高 F核大小 p填充 s 步长
m a t h H ′ = ⌊ H − F + 2 p S ⌋ + 1 math H^{\prime}=\left\lfloor\frac{H-F+2 p}{S}\right\rfloor+1 mathH=SHF+2p+1
池化 最大池化、平均池化
全连接层
概率输出层

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值