基于深度学习的计算机视觉研究新进展（综述笔记）

everydaylucky

已于 2022-07-10 19:14:27 修改

阅读量2k

点赞数 2

分类专栏：综述文章标签：深度学习计算机视觉

于 2022-06-29 16:58:21 首次发布

本文链接：https://blog.csdn.net/m0_62108334/article/details/125517303

版权

深度学习的应用场景：图像搜索、自动驾驶、用户行为分析、文字识别、虚拟现实和激光雷达等等基于深度学习的计算机视觉同时可以对其他学科产生影响：在计算机图形学的动画仿真和实时渲染技术；材料领域的显微镜分析技术；医学图像分析处理技术；实施评估师生课堂表现和考场行为的智慧教育；分析运动员比赛表现技术等数据集： 2007年，普林斯顿大学李飞飞团队基于 WordNet 的层级结构开始搭建 ImageNet 数据集。最终在 2

摘要由CSDN通过智能技术生成

深度学习的应用场景：图像搜索、自动驾驶、用户行为分析、文字识别、虚拟现实和激光雷达等等

基于深度学习的计算机视觉同时可以对其他学科产生影响：

在计算机图形学的动画仿真和实时渲染技术；

材料领域的显微镜分析技术；

医学图像分析处理技术；

实施评估师生课堂表现和考场行为的智慧教育；

分析运动员比赛表现技术等

数据集：

2007年，普林斯顿大学李飞飞团队基于 WordNet 的层级结构开始搭建 ImageNet 数据集。最终在 2009 年公开。如今 ImageNet 数据集包含超过 14 000 000 张带标签的高清图像、超过 22 000 个类别。

2010 年开始举办的 ILSVRC 图像分类比赛成为计算机视觉领域的重要赛事，用于评估图像分类算法的准确率。ILSVRC 比赛数据集是 ImageNet 的一个子集，包含 1000 类、数百万张图片。

2018 年谷歌发布了 Open Image 数据集［33］，包含了被分为 6 000 多类的 900 万张带有目标位置信息的图片

JFT‑300M 数据集［ 34 ］包含 300 万张非精确标注的图像

DeepMind 也公开了 Kinetics 数据集［ 35‑36 ］，包含650 000 张人体动作的视频截图。这些大规模数据集增强了深度学习模型的泛化能力，为全世界深度学习工作者和数据科学家提供了数据支持，保障了深度学习领域的蓬勃发展。

1.通用深度神经网络模型综述

1998年LeCun提出LeNet，由2个卷积层和3个全连接层组成，又称作LeNet-5，结构如图所示，被广泛的应用于手写数字识别。

缺点：在小数据集上表现良好，在大数据集上表现一般

2012年 AlexNet被提出，首次将深度学习技术应用到大规模图像分类领域，采用5层卷积层和3层全连接层，激活函数使用RELU取代了sigmoid，用dropout方法取代了权重衰减缓解过拟合。在ImageNet上取得了17%的错误率，结构如图所示。

2014提出ZFNet，通过反卷积可视化CNN学习到的特征，在ImageNet上取得了11.7%的错误率；

2015年提出GoogleNet，提出了一种Inception模块，错误率降到了6.7%。如图 3 所示。这种结构基于网络中的网络（Network in network，NiN）的思想［24］，有 4条分支，通过不同尺寸的卷积层和最大池化层并行提取信息，1 × 1 卷积层可以显著减少参数量，降低模型复杂度。GoogLeNet 一共使用 9 个 Inception 模块，和全局平均池化层、卷积层及全连接层串联。

2015年，VGGNet被提出，重复使用3*3的卷积核和和2*2的池化层，将深度网络加深到了16-19层，如图所示。

2016年，何凯明团队提出了ResNet,将 top‑5 错误率降至 3.6%。ResNet 最深可达 152 层，以绝对优势获得了目标检测、分类和定位3个赛道的冠军。该研究提出了残差模块的跳接结构，每 1 个残差模块里有 2 个相同输出通道的 3×3 卷积层，每个卷积层后接 1 个 BN（Batch nor‑ malization）层和 ReLU 激活函数。跳接结构可以使数据更快地向前传播，保证网络沿着正确的方向深化，准确率可以不断提高。

2017 年提出的 DenseNet ［ 30 ］和 ResNeXt ［ 31 ］都是受 ResNet ［ 29 ］

最低0.47元/天解锁文章

everydaylucky

关注

2
点赞
踩
19

收藏

觉得还不错? 一键收藏
0
评论
基于深度学习的计算机视觉研究新进展（综述笔记）

深度学习的应用场景：图像搜索、自动驾驶、用户行为分析、文字识别、虚拟现实和激光雷达等等基于深度学习的计算机视觉同时可以对其他学科产生影响：在计算机图形学的动画仿真和实时渲染技术；材料领域的显微镜分析技术；医学图像分析处理技术；实施评估师生课堂表现和考场行为的智慧教育；分析运动员比赛表现技术等数据集： 2007年，普林斯顿大学李飞飞团队基于 WordNet 的层级结构开始搭建 ImageNet 数据集。最终在 2
复制链接

扫一扫