计算机视觉(CV)必读论文、课程、术语汇总

论文名称超链接为论文全文中英对照翻译(已校正)。持续更新···⏰



基础知识

理解卷积神经网络

不同类型的卷积对比

  • 不同类型的卷积神经网络:link

转置卷积

Learning Deconvolution Network for Semantic Segmentation(ICCV 2015)

可分离卷积

Xception: Deep Learning with Depthwise Separable Convolutions(CVPR 2017)

可变形卷积

Deformable Convolutional Networks(ICCV 2017)

空洞卷积

Dilated Residual Networks(CVPR 2017)

相关论文汇总

contributor: datamonday
githubrepo: https://github.com/datamonday/CV-Baseline-Papers


1. 基础论文(Foundation)

模型(Model)论文名称(Paper)年份(Year)被引(cited)作者(Author)所属类别(Type)官方代码(Code)个人代码(Practice)
AlexNetImageNet Classification with Deep Convolutional Neural Networks201267950(20/08/20)Alex Krizhevsky,Ilya Sutskever,Geoffrey E. HintonClassification
ZFNetVisualizing and Understanding Convolutional Networks20139898(20/08/2020)Matthew D. Zeiler,Rob FergusClassification
VGGNetVERY DEEP CONVOLUTIONAL NETWORKS FOR LARGE-SCALE IMAGE RECOGNITION201442645(20/08/2020)Karen Simonyan,Andrew Zisserman+Classification
GoogLeNetGoing deeper with convolutions201423544(20/08/2020)Christian Szegedy,Wei Liu,Yangqing Jia,et.alClassification
Inception v2Batch Normalization: Accelerating Deep Network Training by Reducing Internal Covariate Shift201520238(21/08/2020)Sergey Ioffe,Christian SzegedyBN
Inception v3Rethinking the Inception Architecture for Computer Vision20159190(21/08/2020)Christian Szegedy,Vincent Vanhoucke,Sergey Ioffe,et.al
Inception v4Inception-v4, Inception-ResNet and the Impact of Residual Connections on Learning20165227(21/08/2020)Christian Szegedy,Sergey Ioffe,Vincent Vanhoucke
ResNetDeep Residual Learning for Image Recognition201552996(25/08/2020)Kaiming He,Xiangyu Zhang,Shaoqing Ren,Jian SunClassification,Object Detection
ResNeXtAggregated Residual Transformations for Deep Neural Networks20172715(27/08/2020)Saining Xie,Ross Girshick,et.alClassification,Object Detection
DenseNetDensely Connected Convolutional Networks201710699(27/08/2020)Gao Huang*,Zhuang Liu*,et.alClassification,Object Detection
SENetSqueeze-and-Excitation Networks20173667(27/08/2020)Jie Hu,Li Shen,et.alClassification,Object Detection
HRNet
CSPNet
EfficientNet

2. 图像分类(Image Classification)

模型(Model)论文名称(Paper)年份(Year)被引(cited)作者(Author)所属类别(Type)官方代码(Code)个人代码(Practice)
HighwayHighway Networks20151280(10/09/2020)Rupesh Kumar Srivastava,Klaus Greff,J¨urgen Schmidhuber
PReLUDelving Deep into Rectifiers: Surpassing Human-Level Performance on ImageNet Classification20159108(10/09/2020)Kaiming He,Xiangyu Zhang,Shaoqing Ren,Jian Sun

3. 目标检测(Object Detection)

模型(Model)论文名称(Paper)年份(Year)被引(cited)作者(Author)所属类别(Type)官方代码(Code)个人代码(Practice)
Selective SearchSelective Search for Object Recognition20134498(07/09/2020)J.R.R. Uijlings,et.al
OverFeatOverFeat:Integrated Recognition, Localization and Detection using Convolutional Networks20144061(06/09/2020)Pierre Sermanet,David Eigen,et.al
R-CNNRich feature hierarchies for accurate object detection and semantic segmentation201414188(06/09/2020)Ross Girshick,Jeff Donahue,et.al
SPPNetSpatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition20144740(09/09/2020)Kaiming He, Xiangyu Zhang, Shaoqing Ren, Jian Sun
Fast R-CNNFast R-CNN201510839(08/09/2020)Ross Girshick
Faster R-CNNFaster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks201620864(08/09/2020)Shaoqing Ren, Kaiming He, Ross Girshick, and Jian Sun
YOLO v1You Only Look Once: Unified, Real-Time Object Detection201510906(11/09/2020)Joseph Redmon, Santosh Divvalay, Ross Girshick, Ali Farhadiy
SSDSSD: Single Shot MultiBox Detector201510131(11/09/2020)Wei Liu, Dragomir Anguelov,et.al
YOLO v2
YOLO v3
YOLO v4
YOLO v5
YOLO x

4. 图像分割(Image Segmentation)

模型(Model)论文名称(Paper)年份(Year)被引(cited)作者(Author)所属类别(Type)官方代码(Code)个人代码(Practice)
FCNFully Convolutional Networks for Semantic Segmentation201414541(06/09/2020)Jonathan Long*,Evan Shelhamer*,Trevor Darrell
U-NetU-Net: Convolutional Networks for Biomedical Image Segmentation201512052(08/03/2020)Olaf Ronneberger, Philipp Fischer, and Thomas Brox
Mask RCNN

5. 生成式对抗网络(Generative Adversarial Network, GAN)

模型(Model)论文名称(Paper)年份(Year)被引(cited)作者(Author)所属类别(Type)官方代码(Code)个人代码(Practice)
GAN2016

6. 光学字符识别(Optical Character Recognition, OCR)

模型(Model)论文名称(Paper)年份(Year)被引(cited)作者(Author)所属类别(Type)官方代码(Code)个人代码(Practice)

7. 轻量化网络(Light Networks)

模型(Model)论文名称(Paper)年份(Year)被引(cited)作者(Author)所属类别(Type)官方代码(Code)个人代码(Practice)
Mobilenet v1
Mobilenet v2
Mobilenet v3
ShuffleNet v1
ShuffleNet v2

8. 图神经网络(Graph Neural Networks)

模型(Model)论文名称(Paper)年份(Year)被引(cited)作者(Author)所属类别(Type)官方代码(Code)个人代码(Practice)
GCN
TCN

9. 人脸识别(Face Recognition)

模型(Model)论文名称(Paper)年份(Year)被引(cited)作者(Author)所属类别(Type)官方代码(Code)个人代码(Practice)

10. 目标跟踪(Object Tracking)

模型(Model)论文名称(Paper)年份(Year)被引(cited)作者(Author)所属类别(Type)官方代码(Code)个人代码(Practice)

11. 行人重识别(Person Re-identification, ReID)

模型(Model)论文名称(Paper)年份(Year)被引(cited)作者(Author)所属类别(Type)官方代码(Code)个人代码(Practice)

12. 雷达点云(Lidar Point Clouds)

模型(Model)论文名称(Paper)年份(Year)被引(cited)作者(Author)所属类别(Type)官方代码(Code)个人代码(Practice)

13. 3D重建(3D Reconstruction)

模型(Model)论文名称(Paper)年份(Year)被引(cited)作者(Author)所属类别(Type)官方代码(Code)个人代码(Practice)

14. 图像恢复(Image Restoration)

细分领域:超分辨率,修复,去噪,去模糊,去雨,去雾,去马赛克

因为课程要求,整理了图像恢复相关的论文:图像恢复(降噪/超分/去雾/去雨/去模糊)顶会论文汇总

模型(Model)论文名称(Paper)年份(Year)被引(cited)作者(Author)所属类别(Type)官方代码(Code)个人代码(Practice)

15. 图像压缩(Image Compression)

模型(Model)论文名称(Paper)年份(Year)被引(cited)作者(Author)所属类别(Type)官方代码(Code)个人代码(Practice)

16. Vision Transformer

自 2020 年 ViT 提出以来,已经有大量研究提出了关于 Transformer 的变体。

模型(Model)论文名称(Paper)年份(Year)被引(cited)作者(Author)所属类别(Type)官方代码(Code)个人代码(Practice)
ViT
Swin Transformer

经典课程

1. CS231N

课程主页:http://cs231n.stanford.edu/
课程视频:https://www.youtube.com/playlist?list=PLC1qU-LWwrF64f4QKQT-Vg5Wr4qEE1Zxk
课程大纲:http://cs231n.stanford.edu/syllabus.html
课程作业:https://github.com/cs231n/cs231n.github.io/tree/master/assignments
作业参考:https://github.com/Burton2000/CS231n-2017


序号内容
01Python Numpy Tutorial

相关术语

1. mAP

【Ref】LINK

P 表示 precision,即精确率,又称为精度,表示预测样本中实际正样本数占所有正样本数的比例,计算公式为:精确率 = 正确预测样本中实际正样本数 / 所有的正样本数,即:
p r e c i s i o n = T P ( T P + F P ) precision = \frac{TP}{(TP+FP)} precision=(TP+FP)TP
mAP 是 Mean Average Precision 的缩写,即均值平均精度。作为目标检测中衡量检测精度的指标。计算公式为:mAP = 所有类别的平均精度求和除以所有类别


2. IoU

【Ref】LINK

交并比(Intersection-over-Union,IOU)是目标检测中使用的一个概念,是一种测量在特定数据集中检测相应物体准确度的一个标准。

IOU表示产生的候选框(candidate bound)与原标记框(ground truth bound)的交叠率
或者说重叠度,即它们的交集与并集的比值。相关度越高该值。最理想情况是完全重叠,即比值为1。


3. 图像分割相关

【Ref】LINK

图像分割中的常见术语:

  • superpixels(超分辨率):超分辨率是一系列像素的集合,这些像素具有类似的颜色、纹理等特征,距离也比较近。超分辨率就是把一幅原本是像素级(pixel-level)的图,划分成区域级(district-level)的图。可以将其看做是对基本信息进行的抽象。超分辨率最早的定义来自论文《Learning a Classification Model for Segmentation》。
  • Semantic Segmentation(语义分割): 把图像中每个像素赋予一个类别标签(比如建筑、天空等),用不同的颜色来表示。
  • Instance Segmentation(实例分割):实例分割一般输出是一个mask,它只需要找到感兴趣物体的边缘轮廓。
  • Panoptic Segmentation(全景分割):它是语义分割和实例分割的结合。

4. Ablation Study

【Ref】LINK

Ablation Study 是为研究模型中所提出的一些结构是否有效而设计的实验。比如想确定某一网络结构是否有利于最终的效果,则需要将去掉该结构的网络与加上该结构的网络所得到的结果进行对比,这就是ablation study。


5. Hard Negative Mining

【Ref】LINK

该思路源自于在faster rcnn和SSD中训练的方法。

由于一个图片中的ground_truth比较少,所以会到导致正样本会比较少,很有可能会出现正负样本不均衡的状态,所以运用了hard negative mining这个方法来帮助训练。

hard negative mining顾名思义:negative,即负样本,其次是hard,说明是困难样本,也就是说在对负样本分类时候,loss比较大(label与prediction相差较大)的那些样本,也可以说是容易将负样本看成正样本的那些样本

hard negative mining就是多找一些hard negative加入负样本集,进行训练,这样会比easy negative组成的负样本集效果更好。

  • 1、目标检测中如何根据有标签的数据划分正负训练集?
    用带标签的图像随机生成图像块,iou大于某一个阈值的图像块做为正样本,否则为负样本。但一般负样本远远多于正样本,为避免训练出来的模型会偏向预测为负例,需要保持样本均衡,所以初始负样本训练集需要选择负样本集的子集,一般来说,正:负=1:3。
  • 2、有了正负训练集就可以训练神经网络了。经过训练后,就可以用这个训练出的模型预测其余的负样本了(就是没有加入训练集的那些负样本)。模型在预测一张图像块后会给出其属于正负的概率,在这里设置一个阈值,预测为正的概率大于这个阈值,就可以把这个图像块加入复样本训练集了。
  • 3、正样本训练集不变,负样本训练集除了初始的那些,还有新加入的。拿着这个新的训练集,就可以开始新的一轮训练了。(这里运用了解决样本不平衡欠采样的方法之一)
  • 跳到第二步(这个过程是重复的)

6. 非极大值抑制(NMS)

【Ref】 LINK

非极大值抑制(Non-Maximum Suppression,NMS),顾名思义就是抑制不是极大值的元素,可以理解为局部最大搜索。这个局部代表的是一个邻域,邻域有两个参数可变,一是邻域的维数,二是邻域的大小。给出一张图片和上面许多物体检测的候选框(即每个框可能都代表某种物体),但是这些框很可能有互相重叠的部分,我们要做的就是只保留最优的框。例如在行人检测中,滑动窗口经提取特征,经分类器分类识别后,每个窗口都会得到一个分数。但是滑动窗口会导致很多窗口与其他窗口存在包含或者大部分交叉的情况。这时就需要用到NMS来选取那些邻域里分数最高(是行人的概率最大),并且抑制那些分数低的窗口。NMS在计算机视觉领域有着非常重要的应用,如视频目标跟踪、数据挖掘、3D重建、目标识别以及纹理分析等。


7. 图像变形(Image Warping)

【Ref】 LINK

Warp这个操作本身可以理解为扭曲,变型,变换;其实就是一种数学运算,是一种统称,一般情况下paper里会定义怎么warp,不同建模warp function不同。对于计算机几何视觉一般有:

  • 1)欧氏变换(SO3,SE3),自由度为3或者6,不变的是长度,夹角,体积;
  • 2)相似变换,自由度为7,不变的是体积比;
  • 3)仿射变换(Affine),自由度12,不变的是平行性,体积比;
  • 4)射影变换,自由度15,相交性不变。

8. 词袋(BoW)

【Ref】LINK1LINK2

Bag-of-words model (BoW model) 最早出现在NLP和IR领域。该模型忽略掉文本的语法和语序,用一组无序的单词(words)来表达一段文字或一个文档。近年来,BoW模型被广泛应用于计算机视觉中。与应用于文本的BoW类比,图像的特征(feature)被当作单词(Word)。Fei-fei Li[3]在中提出了用BoW模型表达图像的方法。他们认为,图像可以类比为文档(document),图像中的单词(words)可以定义为一个图像块(image patch)的特征向量。那么图像的BoW模型即是“图像中所有图像块的特征向量得到的直方图”。建立BoW模型主要分为如下几个步骤:

  • 特征提取。假设有N张图像,第i张图像图像可由n(i)个image patch组成,也即可以由n(i)个特征向量表达。则总共能得到sum(n(i))个特征向量(即单词)。特征向量可以根据特征问题自行设计,常用特征有Color histogram,SIFT,LBP等。

  • 生成字典/码本(codebook)。对上一步得到的特征向量进行聚类(可以使用K-means等聚类方法),得到K个聚类中心,用聚类中心构建码本。

  • 根据码本生成直方图。对每张图片,通过最近邻计算该图片的每个“单词”应该属于codebook中的 “哪一类”单词,从而得到该图片对应于该码本的BoW表示。


9. SIFT

【Ref】LINK


10. jitter

评论 6
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

EAI2

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值