论文名称超链接为论文全文中英对照翻译(已校正)。持续更新···⏰
文章目录
- 基础知识
- 相关论文汇总
- 1. 基础论文(Foundation)
- 2. 图像分类(Image Classification)
- 3. 目标检测(Object Detection)
- 4. 图像分割(Image Segmentation)
- 5. 生成式对抗网络(Generative Adversarial Network, GAN)
- 6. 光学字符识别(Optical Character Recognition, OCR)
- 7. 轻量化网络(Light Networks)
- 8. 图神经网络(Graph Neural Networks)
- 9. 人脸识别(Face Recognition)
- 10. 目标跟踪(Object Tracking)
- 11. 行人重识别(Person Re-identification, ReID)
- 12. 雷达点云(Lidar Point Clouds)
- 13. 3D重建(3D Reconstruction)
- 14. 图像恢复(Image Restoration)
- 15. 图像压缩(Image Compression)
- 16. Vision Transformer
- 经典课程
- 相关术语
基础知识
理解卷积神经网络
- 理解卷积神经网络:https://arxiv.org/abs/1311.2901
不同类型的卷积对比
- 不同类型的卷积神经网络:link
转置卷积
Learning Deconvolution Network for Semantic Segmentation(ICCV 2015)
可分离卷积
Xception: Deep Learning with Depthwise Separable Convolutions(CVPR 2017)
可变形卷积
Deformable Convolutional Networks(ICCV 2017)
空洞卷积
Dilated Residual Networks(CVPR 2017)
相关论文汇总
contributor: datamonday
githubrepo: https://github.com/datamonday/CV-Baseline-Papers
1. 基础论文(Foundation)
模型(Model) | 论文名称(Paper) | 年份(Year) | 被引(cited) | 作者(Author) | 所属类别(Type) | 官方代码(Code) | 个人代码(Practice) |
---|---|---|---|---|---|---|---|
AlexNet | ImageNet Classification with Deep Convolutional Neural Networks | 2012 | 67950(20/08/20) | Alex Krizhevsky,Ilya Sutskever,Geoffrey E. Hinton | Classification | ||
ZFNet | Visualizing and Understanding Convolutional Networks | 2013 | 9898(20/08/2020) | Matthew D. Zeiler,Rob Fergus | Classification | ||
VGGNet | VERY DEEP CONVOLUTIONAL NETWORKS FOR LARGE-SCALE IMAGE RECOGNITION | 2014 | 42645(20/08/2020) | Karen Simonyan,Andrew Zisserman+ | Classification | ||
GoogLeNet | Going deeper with convolutions | 2014 | 23544(20/08/2020) | Christian Szegedy,Wei Liu,Yangqing Jia,et.al | Classification | ||
Inception v2 | Batch Normalization: Accelerating Deep Network Training by Reducing Internal Covariate Shift | 2015 | 20238(21/08/2020) | Sergey Ioffe,Christian Szegedy | BN | ||
Inception v3 | Rethinking the Inception Architecture for Computer Vision | 2015 | 9190(21/08/2020) | Christian Szegedy,Vincent Vanhoucke,Sergey Ioffe,et.al | |||
Inception v4 | Inception-v4, Inception-ResNet and the Impact of Residual Connections on Learning | 2016 | 5227(21/08/2020) | Christian Szegedy,Sergey Ioffe,Vincent Vanhoucke | |||
ResNet | Deep Residual Learning for Image Recognition | 2015 | 52996(25/08/2020) | Kaiming He,Xiangyu Zhang,Shaoqing Ren,Jian Sun | Classification,Object Detection | ||
ResNeXt | Aggregated Residual Transformations for Deep Neural Networks | 2017 | 2715(27/08/2020) | Saining Xie,Ross Girshick,et.al | Classification,Object Detection | ||
DenseNet | Densely Connected Convolutional Networks | 2017 | 10699(27/08/2020) | Gao Huang*,Zhuang Liu*,et.al | Classification,Object Detection | ||
SENet | Squeeze-and-Excitation Networks | 2017 | 3667(27/08/2020) | Jie Hu,Li Shen,et.al | Classification,Object Detection | ||
HRNet | |||||||
CSPNet | |||||||
EfficientNet |
2. 图像分类(Image Classification)
模型(Model) | 论文名称(Paper) | 年份(Year) | 被引(cited) | 作者(Author) | 所属类别(Type) | 官方代码(Code) | 个人代码(Practice) |
---|---|---|---|---|---|---|---|
Highway | Highway Networks | 2015 | 1280(10/09/2020) | Rupesh Kumar Srivastava,Klaus Greff,J¨urgen Schmidhuber | |||
PReLU | Delving Deep into Rectifiers: Surpassing Human-Level Performance on ImageNet Classification | 2015 | 9108(10/09/2020) | Kaiming He,Xiangyu Zhang,Shaoqing Ren,Jian Sun |
3. 目标检测(Object Detection)
模型(Model) | 论文名称(Paper) | 年份(Year) | 被引(cited) | 作者(Author) | 所属类别(Type) | 官方代码(Code) | 个人代码(Practice) |
---|---|---|---|---|---|---|---|
Selective Search | Selective Search for Object Recognition | 2013 | 4498(07/09/2020) | J.R.R. Uijlings,et.al | |||
OverFeat | OverFeat:Integrated Recognition, Localization and Detection using Convolutional Networks | 2014 | 4061(06/09/2020) | Pierre Sermanet,David Eigen,et.al | |||
R-CNN | Rich feature hierarchies for accurate object detection and semantic segmentation | 2014 | 14188(06/09/2020) | Ross Girshick,Jeff Donahue,et.al | |||
SPPNet | Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition | 2014 | 4740(09/09/2020) | Kaiming He, Xiangyu Zhang, Shaoqing Ren, Jian Sun | |||
Fast R-CNN | Fast R-CNN | 2015 | 10839(08/09/2020) | Ross Girshick | |||
Faster R-CNN | Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks | 2016 | 20864(08/09/2020) | Shaoqing Ren, Kaiming He, Ross Girshick, and Jian Sun | |||
YOLO v1 | You Only Look Once: Unified, Real-Time Object Detection | 2015 | 10906(11/09/2020) | Joseph Redmon, Santosh Divvalay, Ross Girshick, Ali Farhadiy | |||
SSD | SSD: Single Shot MultiBox Detector | 2015 | 10131(11/09/2020) | Wei Liu, Dragomir Anguelov,et.al | |||
YOLO v2 | |||||||
YOLO v3 | |||||||
YOLO v4 | |||||||
YOLO v5 | |||||||
YOLO x | |||||||
4. 图像分割(Image Segmentation)
模型(Model) | 论文名称(Paper) | 年份(Year) | 被引(cited) | 作者(Author) | 所属类别(Type) | 官方代码(Code) | 个人代码(Practice) |
---|---|---|---|---|---|---|---|
FCN | Fully Convolutional Networks for Semantic Segmentation | 2014 | 14541(06/09/2020) | Jonathan Long*,Evan Shelhamer*,Trevor Darrell | |||
U-Net | U-Net: Convolutional Networks for Biomedical Image Segmentation | 2015 | 12052(08/03/2020) | Olaf Ronneberger, Philipp Fischer, and Thomas Brox | |||
Mask RCNN |
5. 生成式对抗网络(Generative Adversarial Network, GAN)
模型(Model) | 论文名称(Paper) | 年份(Year) | 被引(cited) | 作者(Author) | 所属类别(Type) | 官方代码(Code) | 个人代码(Practice) |
---|---|---|---|---|---|---|---|
GAN | 2016 |
6. 光学字符识别(Optical Character Recognition, OCR)
模型(Model) | 论文名称(Paper) | 年份(Year) | 被引(cited) | 作者(Author) | 所属类别(Type) | 官方代码(Code) | 个人代码(Practice) |
---|---|---|---|---|---|---|---|
7. 轻量化网络(Light Networks)
模型(Model) | 论文名称(Paper) | 年份(Year) | 被引(cited) | 作者(Author) | 所属类别(Type) | 官方代码(Code) | 个人代码(Practice) |
---|---|---|---|---|---|---|---|
Mobilenet v1 | |||||||
Mobilenet v2 | |||||||
Mobilenet v3 | |||||||
ShuffleNet v1 | |||||||
ShuffleNet v2 |
8. 图神经网络(Graph Neural Networks)
模型(Model) | 论文名称(Paper) | 年份(Year) | 被引(cited) | 作者(Author) | 所属类别(Type) | 官方代码(Code) | 个人代码(Practice) |
---|---|---|---|---|---|---|---|
GCN | |||||||
TCN |
9. 人脸识别(Face Recognition)
模型(Model) | 论文名称(Paper) | 年份(Year) | 被引(cited) | 作者(Author) | 所属类别(Type) | 官方代码(Code) | 个人代码(Practice) |
---|---|---|---|---|---|---|---|
10. 目标跟踪(Object Tracking)
模型(Model) | 论文名称(Paper) | 年份(Year) | 被引(cited) | 作者(Author) | 所属类别(Type) | 官方代码(Code) | 个人代码(Practice) |
---|---|---|---|---|---|---|---|
11. 行人重识别(Person Re-identification, ReID)
模型(Model) | 论文名称(Paper) | 年份(Year) | 被引(cited) | 作者(Author) | 所属类别(Type) | 官方代码(Code) | 个人代码(Practice) |
---|---|---|---|---|---|---|---|
12. 雷达点云(Lidar Point Clouds)
模型(Model) | 论文名称(Paper) | 年份(Year) | 被引(cited) | 作者(Author) | 所属类别(Type) | 官方代码(Code) | 个人代码(Practice) |
---|---|---|---|---|---|---|---|
13. 3D重建(3D Reconstruction)
模型(Model) | 论文名称(Paper) | 年份(Year) | 被引(cited) | 作者(Author) | 所属类别(Type) | 官方代码(Code) | 个人代码(Practice) |
---|---|---|---|---|---|---|---|
14. 图像恢复(Image Restoration)
细分领域:超分辨率,修复,去噪,去模糊,去雨,去雾,去马赛克
因为课程要求,整理了图像恢复相关的论文:图像恢复(降噪/超分/去雾/去雨/去模糊)顶会论文汇总
模型(Model) | 论文名称(Paper) | 年份(Year) | 被引(cited) | 作者(Author) | 所属类别(Type) | 官方代码(Code) | 个人代码(Practice) |
---|---|---|---|---|---|---|---|
15. 图像压缩(Image Compression)
模型(Model) | 论文名称(Paper) | 年份(Year) | 被引(cited) | 作者(Author) | 所属类别(Type) | 官方代码(Code) | 个人代码(Practice) |
---|---|---|---|---|---|---|---|
16. Vision Transformer
自 2020 年 ViT 提出以来,已经有大量研究提出了关于 Transformer 的变体。
模型(Model) | 论文名称(Paper) | 年份(Year) | 被引(cited) | 作者(Author) | 所属类别(Type) | 官方代码(Code) | 个人代码(Practice) |
---|---|---|---|---|---|---|---|
ViT | |||||||
Swin Transformer |
经典课程
1. CS231N
课程主页:http://cs231n.stanford.edu/
课程视频:https://www.youtube.com/playlist?list=PLC1qU-LWwrF64f4QKQT-Vg5Wr4qEE1Zxk
课程大纲:http://cs231n.stanford.edu/syllabus.html
课程作业:https://github.com/cs231n/cs231n.github.io/tree/master/assignments
作业参考:https://github.com/Burton2000/CS231n-2017
序号 | 内容 | |
---|---|---|
01 | Python Numpy Tutorial |
相关术语
1. mAP
【Ref】LINK
P 表示 precision,即精确率,又称为精度,表示预测样本中实际正样本数占所有正样本数的比例,计算公式为:精确率 = 正确预测样本中实际正样本数 / 所有的正样本数,即:
p
r
e
c
i
s
i
o
n
=
T
P
(
T
P
+
F
P
)
precision = \frac{TP}{(TP+FP)}
precision=(TP+FP)TP
mAP 是 Mean Average Precision 的缩写,即均值平均精度。作为目标检测中衡量检测精度的指标。计算公式为:mAP = 所有类别的平均精度求和除以所有类别。
2. IoU
【Ref】LINK
交并比(Intersection-over-Union,IOU)是目标检测中使用的一个概念,是一种测量在特定数据集中检测相应物体准确度的一个标准。
IOU表示产生的候选框(candidate bound)与原标记框(ground truth bound)的交叠率
或者说重叠度,即它们的交集与并集的比值。相关度越高该值。最理想情况是完全重叠,即比值为1。
3. 图像分割相关
【Ref】LINK
图像分割中的常见术语:
- superpixels(超分辨率):超分辨率是一系列像素的集合,这些像素具有类似的颜色、纹理等特征,距离也比较近。超分辨率就是把一幅原本是像素级(pixel-level)的图,划分成区域级(district-level)的图。可以将其看做是对基本信息进行的抽象。超分辨率最早的定义来自论文《Learning a Classification Model for Segmentation》。
- Semantic Segmentation(语义分割): 把图像中每个像素赋予一个类别标签(比如建筑、天空等),用不同的颜色来表示。
- Instance Segmentation(实例分割):实例分割一般输出是一个mask,它只需要找到感兴趣物体的边缘轮廓。
- Panoptic Segmentation(全景分割):它是语义分割和实例分割的结合。
4. Ablation Study
【Ref】LINK
Ablation Study 是为研究模型中所提出的一些结构是否有效而设计的实验。比如想确定某一网络结构是否有利于最终的效果,则需要将去掉该结构的网络与加上该结构的网络所得到的结果进行对比,这就是ablation study。
5. Hard Negative Mining
【Ref】LINK
该思路源自于在faster rcnn和SSD中训练的方法。
由于一个图片中的ground_truth比较少,所以会到导致正样本会比较少,很有可能会出现正负样本不均衡的状态,所以运用了hard negative mining这个方法来帮助训练。
hard negative mining顾名思义:negative,即负样本,其次是hard,说明是困难样本,也就是说在对负样本分类时候,loss比较大(label与prediction相差较大)的那些样本,也可以说是容易将负样本看成正样本的那些样本。
hard negative mining就是多找一些hard negative加入负样本集,进行训练,这样会比easy negative组成的负样本集效果更好。
- 1、目标检测中如何根据有标签的数据划分正负训练集?
用带标签的图像随机生成图像块,iou大于某一个阈值的图像块做为正样本,否则为负样本。但一般负样本远远多于正样本,为避免训练出来的模型会偏向预测为负例,需要保持样本均衡,所以初始负样本训练集需要选择负样本集的子集,一般来说,正:负=1:3。 - 2、有了正负训练集就可以训练神经网络了。经过训练后,就可以用这个训练出的模型预测其余的负样本了(就是没有加入训练集的那些负样本)。模型在预测一张图像块后会给出其属于正负的概率,在这里设置一个阈值,预测为正的概率大于这个阈值,就可以把这个图像块加入复样本训练集了。
- 3、正样本训练集不变,负样本训练集除了初始的那些,还有新加入的。拿着这个新的训练集,就可以开始新的一轮训练了。(这里运用了解决样本不平衡欠采样的方法之一)
- 跳到第二步(这个过程是重复的)
6. 非极大值抑制(NMS)
【Ref】 LINK
非极大值抑制(Non-Maximum Suppression,NMS),顾名思义就是抑制不是极大值的元素,可以理解为局部最大搜索。这个局部代表的是一个邻域,邻域有两个参数可变,一是邻域的维数,二是邻域的大小。给出一张图片和上面许多物体检测的候选框(即每个框可能都代表某种物体),但是这些框很可能有互相重叠的部分,我们要做的就是只保留最优的框。例如在行人检测中,滑动窗口经提取特征,经分类器分类识别后,每个窗口都会得到一个分数。但是滑动窗口会导致很多窗口与其他窗口存在包含或者大部分交叉的情况。这时就需要用到NMS来选取那些邻域里分数最高(是行人的概率最大),并且抑制那些分数低的窗口。NMS在计算机视觉领域有着非常重要的应用,如视频目标跟踪、数据挖掘、3D重建、目标识别以及纹理分析等。
7. 图像变形(Image Warping)
【Ref】 LINK
Warp这个操作本身可以理解为扭曲,变型,变换;其实就是一种数学运算,是一种统称,一般情况下paper里会定义怎么warp,不同建模warp function不同。对于计算机几何视觉一般有:
- 1)欧氏变换(SO3,SE3),自由度为3或者6,不变的是长度,夹角,体积;
- 2)相似变换,自由度为7,不变的是体积比;
- 3)仿射变换(Affine),自由度12,不变的是平行性,体积比;
- 4)射影变换,自由度15,相交性不变。
8. 词袋(BoW)
Bag-of-words model (BoW model) 最早出现在NLP和IR领域。该模型忽略掉文本的语法和语序,用一组无序的单词(words)来表达一段文字或一个文档。近年来,BoW模型被广泛应用于计算机视觉中。与应用于文本的BoW类比,图像的特征(feature)被当作单词(Word)。Fei-fei Li[3]在中提出了用BoW模型表达图像的方法。他们认为,图像可以类比为文档(document),图像中的单词(words)可以定义为一个图像块(image patch)的特征向量。那么图像的BoW模型即是“图像中所有图像块的特征向量得到的直方图”。建立BoW模型主要分为如下几个步骤:
-
特征提取。假设有N张图像,第i张图像图像可由n(i)个image patch组成,也即可以由n(i)个特征向量表达。则总共能得到sum(n(i))个特征向量(即单词)。特征向量可以根据特征问题自行设计,常用特征有Color histogram,SIFT,LBP等。
-
生成字典/码本(codebook)。对上一步得到的特征向量进行聚类(可以使用K-means等聚类方法),得到K个聚类中心,用聚类中心构建码本。
-
根据码本生成直方图。对每张图片,通过最近邻计算该图片的每个“单词”应该属于codebook中的 “哪一类”单词,从而得到该图片对应于该码本的BoW表示。
9. SIFT
【Ref】LINK