计算机视觉（CV）必读论文、课程、术语汇总

置顶 EAI2

已于 2022-06-21 09:53:19 修改

阅读量9.9k

点赞数 35

分类专栏：论文阅读（Paper）深度学习（Deep Learning）计算机视觉（CV）文章标签：计算机视觉神经网络深度学习

于 2020-09-17 19:14:07 首次发布

本文链接：https://blog.csdn.net/weixin_39653948/article/details/108647744

版权

论文阅读（Paper）同时被 3 个专栏收录

14 篇文章

订阅专栏

深度学习（Deep Learning）

4 篇文章

订阅专栏

计算机视觉（CV）

3 篇文章

订阅专栏

论文名称超链接为论文全文中英对照翻译（已校正）。持续更新···⏰

基础知识

理解卷积神经网络

理解卷积神经网络：https://arxiv.org/abs/1311.2901

不同类型的卷积对比

不同类型的卷积神经网络：link

相关论文汇总

contributor: datamonday
githubrepo: https://github.com/datamonday/CV-Baseline-Papers

1. 基础论文（Foundation）

模型(Model)	论文名称(Paper)	年份(Year)	被引(cited)	作者(Author)	所属类别(Type)
AlexNet	ImageNet Classification with Deep Convolutional Neural Networks	2012	67950(20/08/20)	Alex Krizhevsky,Ilya Sutskever,Geoffrey E. Hinton	Classification
ZFNet	Visualizing and Understanding Convolutional Networks	2013	9898(20/08/2020)	Matthew D. Zeiler,Rob Fergus	Classification
VGGNet	VERY DEEP CONVOLUTIONAL NETWORKS FOR LARGE-SCALE IMAGE RECOGNITION	2014	42645(20/08/2020)	Karen Simonyan,Andrew Zisserman+	Classification
GoogLeNet	Going deeper with convolutions	2014	23544(20/08/2020)	Christian Szegedy,Wei Liu,Yangqing Jia,et.al	Classification
Inception v2	Batch Normalization: Accelerating Deep Network Training by Reducing Internal Covariate Shift	2015	20238(21/08/2020)	Sergey Ioffe,Christian Szegedy	BN
Inception v3	Rethinking the Inception Architecture for Computer Vision	2015	9190(21/08/2020)	Christian Szegedy,Vincent Vanhoucke,Sergey Ioffe,et.al
Inception v4	Inception-v4, Inception-ResNet and the Impact of Residual Connections on Learning	2016	5227(21/08/2020)	Christian Szegedy,Sergey Ioffe,Vincent Vanhoucke
ResNet	Deep Residual Learning for Image Recognition	2015	52996(25/08/2020)	Kaiming He,Xiangyu Zhang,Shaoqing Ren,Jian Sun	Classification,Object Detection
ResNeXt	Aggregated Residual Transformations for Deep Neural Networks	2017	2715(27/08/2020)	Saining Xie,Ross Girshick,et.al	Classification,Object Detection
DenseNet	Densely Connected Convolutional Networks	2017	10699(27/08/2020)	Gao Huang,Zhuang Liu,et.al	Classification,Object Detection
SENet	Squeeze-and-Excitation Networks	2017	3667(27/08/2020)	Jie Hu,Li Shen,et.al	Classification,Object Detection
HRNet
CSPNet
EfficientNet

2. 图像分类（Image Classification）

模型(Model)	论文名称(Paper)	年份(Year)	被引(cited)	作者(Author)	所属类别(Type)	官方代码(Code)	个人代码(Practice)
Highway	Highway Networks	2015	1280(10/09/2020)	Rupesh Kumar Srivastava,Klaus Greff,J¨urgen Schmidhuber
PReLU	Delving Deep into Rectifiers: Surpassing Human-Level Performance on ImageNet Classification	2015	9108(10/09/2020)	Kaiming He,Xiangyu Zhang,Shaoqing Ren,Jian Sun

3. 目标检测（Object Detection）

模型(Model)	论文名称(Paper)	年份(Year)	被引(cited)	作者(Author)
Selective Search	Selective Search for Object Recognition	2013	4498(07/09/2020)	J.R.R. Uijlings,et.al
OverFeat	OverFeat:Integrated Recognition, Localization and Detection using Convolutional Networks	2014	4061(06/09/2020)	Pierre Sermanet,David Eigen,et.al
R-CNN	Rich feature hierarchies for accurate object detection and semantic segmentation	2014	14188(06/09/2020)	Ross Girshick,Jeff Donahue,et.al
SPPNet	Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition	2014	4740(09/09/2020)	Kaiming He, Xiangyu Zhang, Shaoqing Ren, Jian Sun
Fast R-CNN	Fast R-CNN	2015	10839(08/09/2020)	Ross Girshick
Faster R-CNN	Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks	2016	20864(08/09/2020)	Shaoqing Ren, Kaiming He, Ross Girshick, and Jian Sun
YOLO v1	You Only Look Once: Unified, Real-Time Object Detection	2015	10906(11/09/2020)	Joseph Redmon, Santosh Divvalay, Ross Girshick, Ali Farhadiy
SSD	SSD: Single Shot MultiBox Detector	2015	10131(11/09/2020)	Wei Liu, Dragomir Anguelov,et.al
YOLO v2
YOLO v3
YOLO v4
YOLO v5
YOLO x

4. 图像分割（Image Segmentation）

模型(Model)	论文名称(Paper)	年份(Year)	被引(cited)	作者(Author)
FCN	Fully Convolutional Networks for Semantic Segmentation	2014	14541(06/09/2020)	Jonathan Long,Evan Shelhamer,Trevor Darrell
U-Net	U-Net: Convolutional Networks for Biomedical Image Segmentation	2015	12052(08/03/2020)	Olaf Ronneberger, Philipp Fischer, and Thomas Brox
Mask RCNN

5. 生成式对抗网络（Generative Adversarial Network, GAN）

模型(Model)	论文名称(Paper)	年份(Year)	被引(cited)	作者(Author)	所属类别(Type)	官方代码(Code)	个人代码(Practice)
GAN		2016

6. 光学字符识别（Optical Character Recognition, OCR）

模型(Model)	论文名称(Paper)	年份(Year)	被引(cited)	作者(Author)	所属类别(Type)	官方代码(Code)	个人代码(Practice)

7. 轻量化网络（Light Networks）

模型(Model)	论文名称(Paper)	年份(Year)	被引(cited)	作者(Author)	所属类别(Type)	官方代码(Code)	个人代码(Practice)
Mobilenet v1
Mobilenet v2
Mobilenet v3
ShuffleNet v1
ShuffleNet v2

8. 图神经网络（Graph Neural Networks）

模型(Model)	论文名称(Paper)	年份(Year)	被引(cited)	作者(Author)	所属类别(Type)	官方代码(Code)	个人代码(Practice)
GCN
TCN

9. 人脸识别（Face Recognition）

模型(Model)	论文名称(Paper)	年份(Year)	被引(cited)	作者(Author)	所属类别(Type)	官方代码(Code)	个人代码(Practice)

10. 目标跟踪（Object Tracking）

模型(Model)	论文名称(Paper)	年份(Year)	被引(cited)	作者(Author)	所属类别(Type)	官方代码(Code)	个人代码(Practice)

11. 行人重识别（Person Re-identification, ReID）

模型(Model)	论文名称(Paper)	年份(Year)	被引(cited)	作者(Author)	所属类别(Type)	官方代码(Code)	个人代码(Practice)

12. 雷达点云（Lidar Point Clouds）

模型(Model)	论文名称(Paper)	年份(Year)	被引(cited)	作者(Author)	所属类别(Type)	官方代码(Code)	个人代码(Practice)

13. 3D重建（3D Reconstruction）

模型(Model)	论文名称(Paper)	年份(Year)	被引(cited)	作者(Author)	所属类别(Type)	官方代码(Code)	个人代码(Practice)

14. 图像恢复（Image Restoration）

细分领域：超分辨率，修复，去噪，去模糊，去雨，去雾，去马赛克

因为课程要求，整理了图像恢复相关的论文：图像恢复（降噪/超分/去雾/去雨/去模糊）顶会论文汇总

模型(Model)	论文名称(Paper)	年份(Year)	被引(cited)	作者(Author)	所属类别(Type)	官方代码(Code)	个人代码(Practice)

15. 图像压缩（Image Compression）

模型(Model)	论文名称(Paper)	年份(Year)	被引(cited)	作者(Author)	所属类别(Type)	官方代码(Code)	个人代码(Practice)

16. Vision Transformer

自 2020 年 ViT 提出以来，已经有大量研究提出了关于 Transformer 的变体。

模型(Model)	论文名称(Paper)	年份(Year)	被引(cited)	作者(Author)	所属类别(Type)	官方代码(Code)	个人代码(Practice)
ViT
Swin Transformer

经典课程

1. CS231N

课程主页：http://cs231n.stanford.edu/
课程视频：https://www.youtube.com/playlist?list=PLC1qU-LWwrF64f4QKQT-Vg5Wr4qEE1Zxk
课程大纲：http://cs231n.stanford.edu/syllabus.html
课程作业：https://github.com/cs231n/cs231n.github.io/tree/master/assignments
作业参考：https://github.com/Burton2000/CS231n-2017

序号	内容
01	Python Numpy Tutorial

相关术语

1. mAP

【Ref】LINK

P 表示 precision，即精确率，又称为精度，表示预测样本中实际正样本数占所有正样本数的比例，计算公式为：精确率 = 正确预测样本中实际正样本数 / 所有的正样本数，即：
$\frac{TP}{(TP+FP)}$
mAP 是 Mean Average Precision 的缩写，即均值平均精度。作为目标检测中衡量检测精度的指标。计算公式为：mAP = 所有类别的平均精度求和除以所有类别。

2. IoU

【Ref】LINK

交并比（Intersection-over-Union，IOU）是目标检测中使用的一个概念，是一种测量在特定数据集中检测相应物体准确度的一个标准。

IOU表示产生的候选框（candidate bound）与原标记框（ground truth bound）的交叠率
或者说重叠度，即它们的交集与并集的比值。相关度越高该值。最理想情况是完全重叠，即比值为1。

3. 图像分割相关

【Ref】LINK

图像分割中的常见术语：

superpixels（超分辨率）：超分辨率是一系列像素的集合，这些像素具有类似的颜色、纹理等特征，距离也比较近。超分辨率就是把一幅原本是像素级(pixel-level)的图，划分成区域级(district-level)的图。可以将其看做是对基本信息进行的抽象。超分辨率最早的定义来自论文《Learning a Classification Model for Segmentation》。
Semantic Segmentation（语义分割）：把图像中每个像素赋予一个类别标签（比如建筑、天空等），用不同的颜色来表示。
Instance Segmentation（实例分割）：实例分割一般输出是一个mask，它只需要找到感兴趣物体的边缘轮廓。
Panoptic Segmentation（全景分割）：它是语义分割和实例分割的结合。

4. Ablation Study

【Ref】LINK

Ablation Study 是为研究模型中所提出的一些结构是否有效而设计的实验。比如想确定某一网络结构是否有利于最终的效果，则需要将去掉该结构的网络与加上该结构的网络所得到的结果进行对比，这就是ablation study。

5. Hard Negative Mining

【Ref】LINK

该思路源自于在faster rcnn和SSD中训练的方法。

由于一个图片中的ground_truth比较少，所以会到导致正样本会比较少，很有可能会出现正负样本不均衡的状态，所以运用了hard negative mining这个方法来帮助训练。

hard negative mining顾名思义：negative，即负样本，其次是hard，说明是困难样本，也就是说在对负样本分类时候，loss比较大（label与prediction相差较大）的那些样本，也可以说是容易将负样本看成正样本的那些样本。

hard negative mining就是多找一些hard negative加入负样本集，进行训练，这样会比easy negative组成的负样本集效果更好。

1、目标检测中如何根据有标签的数据划分正负训练集？
用带标签的图像随机生成图像块，iou大于某一个阈值的图像块做为正样本，否则为负样本。但一般负样本远远多于正样本，为避免训练出来的模型会偏向预测为负例，需要保持样本均衡，所以初始负样本训练集需要选择负样本集的子集，一般来说，正:负=1:3。
2、有了正负训练集就可以训练神经网络了。经过训练后，就可以用这个训练出的模型预测其余的负样本了(就是没有加入训练集的那些负样本)。模型在预测一张图像块后会给出其属于正负的概率，在这里设置一个阈值，预测为正的概率大于这个阈值，就可以把这个图像块加入复样本训练集了。
3、正样本训练集不变，负样本训练集除了初始的那些，还有新加入的。拿着这个新的训练集，就可以开始新的一轮训练了。（这里运用了解决样本不平衡欠采样的方法之一）
跳到第二步（这个过程是重复的）

6. 非极大值抑制（NMS）

【Ref】 LINK

非极大值抑制（Non-Maximum Suppression，NMS），顾名思义就是抑制不是极大值的元素，可以理解为局部最大搜索。这个局部代表的是一个邻域，邻域有两个参数可变，一是邻域的维数，二是邻域的大小。给出一张图片和上面许多物体检测的候选框（即每个框可能都代表某种物体），但是这些框很可能有互相重叠的部分，我们要做的就是只保留最优的框。例如在行人检测中，滑动窗口经提取特征，经分类器分类识别后，每个窗口都会得到一个分数。但是滑动窗口会导致很多窗口与其他窗口存在包含或者大部分交叉的情况。这时就需要用到NMS来选取那些邻域里分数最高（是行人的概率最大），并且抑制那些分数低的窗口。NMS在计算机视觉领域有着非常重要的应用，如视频目标跟踪、数据挖掘、3D重建、目标识别以及纹理分析等。

7. 图像变形（Image Warping）

【Ref】 LINK

Warp这个操作本身可以理解为扭曲，变型，变换；其实就是一种数学运算，是一种统称，一般情况下paper里会定义怎么warp，不同建模warp function不同。对于计算机几何视觉一般有：

1）欧氏变换（SO3,SE3），自由度为3或者6，不变的是长度，夹角，体积；
2）相似变换，自由度为7，不变的是体积比；
3）仿射变换（Affine），自由度12，不变的是平行性，体积比；
4）射影变换，自由度15，相交性不变。

8. 词袋（BoW）

【Ref】LINK1；LINK2

Bag-of-words model (BoW model) 最早出现在NLP和IR领域。该模型忽略掉文本的语法和语序，用一组无序的单词(words)来表达一段文字或一个文档。近年来，BoW模型被广泛应用于计算机视觉中。与应用于文本的BoW类比，图像的特征(feature)被当作单词(Word)。Fei-fei Li[3]在中提出了用BoW模型表达图像的方法。他们认为，图像可以类比为文档(document)，图像中的单词(words)可以定义为一个图像块(image patch)的特征向量。那么图像的BoW模型即是“图像中所有图像块的特征向量得到的直方图”。建立BoW模型主要分为如下几个步骤：

特征提取。假设有N张图像，第i张图像图像可由n(i)个image patch组成，也即可以由n(i)个特征向量表达。则总共能得到sum(n(i))个特征向量(即单词)。特征向量可以根据特征问题自行设计，常用特征有Color histogram，SIFT，LBP等。
生成字典/码本(codebook)。对上一步得到的特征向量进行聚类（可以使用K-means等聚类方法），得到K个聚类中心，用聚类中心构建码本。
根据码本生成直方图。对每张图片，通过最近邻计算该图片的每个“单词”应该属于codebook中的 “哪一类”单词，从而得到该图片对应于该码本的BoW表示。