CV方向调研

最新推荐文章于 2023-07-21 20:40:28 发布

小伟db

最新推荐文章于 2023-07-21 20:40:28 发布

阅读量621

点赞数 2

本文链接：https://blog.csdn.net/qq_35985044/article/details/102732129

版权

CV方向调研

本文主要对CV方向深度学习相关的知识、资料进行介绍。DNN相关的模型在计算机视觉上有许多应用场景，大方向上大致分为2D和3D两类。

CV技术总览

PS：列举的多为各个方向的state of the art。

CV领域发展和应用

2D方向上，自从2012年提出的AlexNet获得了ImageNet 的冠军之后，性能惊人的用于图像分类的卷积神经网络模型不断涌现。以3*3卷积核为主的VGG、借鉴了NIN且在宽度上进行了增加的GoogleNet(Inception v1)、引入了残差块使得网络深度能够继续加深而不容易出问题的ResNet，都在分类问题上取得了不俗的成绩，并作为视觉中许多其他任务的网络模型的backbone。由于DNN模型消耗的计算资源过多，MobileNet、ShuffleNet等能够减少卷积计算量的网络被提出，虽各有特点，但核心操作在于将标准卷积用depthwise卷积(特殊的分组卷积)和1*1卷积代替。这些模型有望用于计算资源不多的嵌入式设备上。

MobileNet关键结构替换示意图

目标检测方面，模型主要分为two-stage和one-stage两大类。Two-stage首先给出proposal region，然后在给出的proposal region上进行定位和分类回归，而one-stage则是直接进行定位和分类回归任务。Two-stage的典型代表为RCNN系列的模型，其中最经典的是Faster R-CNN，其首先使用RPN给出proposal region，然后经过RoI pooling再进行定位和分类。而one-stage的代表主要是YOLO系列、SSD、RetinaNet等模型，这些模型无一不用了特征金字塔(借鉴FPN)、anchor等方法。而CVPR2019的Libra R-CNN和FASF等许多模型都是对以上模型的改进。此外，还有一些one-stage和two-stage模型上都能使用的trick，如Focal loss、GIoU等。

Faster R-CNN主要部分

识别任务方面，有用于人脸识别的MTCNN、FaceNet、CVPR2019提出的DSFD,有用于文字识别的CNN+RNN/LSTM+CTC。

分割任务方面，2015年就提出了用于语义分割的经典模型FCN，后来又出现了性能惊人的Deeplab系列模型，该模型应用了空洞卷积(Dilated/Atrous convolution)、encoder-decoder结构、ASPP(采用不同的rate的空洞卷积，借鉴的空间金字塔池化)、CRF(后序模型中删掉了)和双线性二次插值等许多技巧。值得一提的是，ICCV2019出现了针对双线性二次插值性能的缺点而提出的新模型EMANet。实例分割方面，最著名的当属ICCV best paper中提出的Mask R-CNN，它将Faster R-CNN中的RoI pooling(这个结构与上述的ASPP类似)改成RoI Align并增加了一个mask分支从而实现了实例分割。

Deeplab v3+ encoder结构

姿态估计方面，以Hourglass(多层沙漏状网络堆叠)、中了CVPR2019的HRNet(先检测人体，再做单人姿态估计)以及经典开源模型Openpose(基于一篇先检测多人关键点，再用一定的算法关联这些关键点的论文)。

目标跟踪方面，主要有CNN+相关滤波的方法以及经典的借鉴Siamese的Siam系列模型。Siam系列模型的基本思想是将第一帧图像目标作为模板图像z，将后续个帧图像作为搜索图像x，通过一个学习好的相似性对比函数f(z,x)在x上找到和z最为相似的备选区域作为预测的目标位置。SiamFC将全卷积网络引入Siamese网络中，全卷积的引入使得模型可以直接将模板图像与大块的候选区域进行匹配。SiamRPN基于SiamFC, 引入了Faster RCNN中的RPN模块。SiamRPN++则在SiamRPN的基础上引入了ResNet和新的采样策略，而SiamMask则在Siamese中加入了Mask分支。其中，SiamRPN++和SiamMask都中了CVPR2019(SiamRPN++还是oral)。

SiamRPN++结构图

除了上述的常见任务，2D方向还有许多可探索的方向。例如，和NLP结合的VQA(给定一张图片和一个与该图片相关的自然语言问题，计算机能产生一个正确的回答)、Image Caption(图像描述)等方向，图像去噪、图像恢复、超分辨率等对图像的基本处理的方向，视觉三大顶会上大热的各种GAN(尤其是从理论上探究GAN缺点的经典模型WGAN、WGAN-GP)等仍存在许多探索的可能性。

3D方向上，有着更为丰富的应用场景，并且目前深度学习在3D上的发展相对2D并不成熟(当然2D方向上的发展也不够成熟)。下面给出CVPR2019中3D检测、3D重建、行为识别、点云分割、3D姿态估计等方向的一些论文链接：https://mp.weixin.qq.com/s/mamDhLUw6O9v8gldyIOPUA