【论文】人工智能前沿论文集

最新推荐文章于 2022-11-21 09:48:31 发布

FSALICEALEX

最新推荐文章于 2022-11-21 09:48:31 发布

阅读量950

点赞数

分类专栏：论文

本文链接：https://blog.csdn.net/FSALICEALEX/article/details/104344115

版权

论文专栏收录该内容

13 篇文章 1 订阅

订阅专栏

2020.2.16

https://zhuanlan.zhihu.com/p/107060834，
https://arxiv.org/pdf/2002.05709.pdf
Contrastive Learning
Hinton组力作：ImageNet无监督学习最佳性能一次提升7%，媲美监督学习。
这篇论文是关于Contrastive Learning的，学习器由四个部件组成：数据生成器，特征产生网络，投影网络，对比损失函数。生成器根据原始数据产生出成对的样本，经过网络产生特征，并投影。在对比损失函数中，成对的样本为正样本，而产生源不同的样本互为负样本，负样本的特征要排斥，正样本靠近，由此学习到稳健的特征。
测试方法是根据得到的特征训练线性分类器，根据线性分类器的表现来评估特征产生器的效果。
Contrastive Learning相关的一些介绍：
https://zhuanlan.zhihu.com/p/75412895
https://www.zhihu.com/question/355779873
https://arxiv.org/pdf/1911.05722.pdf
Contrastive Learning
Kaiming He的Momentum Contrast for Unsupervised，无监督目标检测。

2020.2.17

SKNet网络
https://zhuanlan.zhihu.com/p/59690223
自适应调整感受野尺寸
Attention机制：
https://www.zhihu.com/question/68482809/answer/770228379

2020.2.19-2020.2.20

目标检测的评估准则分析
https://zhuanlan.zhihu.com/p/94990078
https://arxiv.org/abs/1611.10012
Speed/accuracy trade-offs for modern convolutional object detectors
https://arxiv.org/abs/1911.12451

Empirical Upper Bound in Object Detection and More

这篇文章是重点。
总结如下：
assumption：

定位问题已经解决
contribution：
定义了一种上界（UAP），假定定位问题（bbox均为GT）已经解决，然后使用网络去学习分类分数，之后计算AP，借此来的得到上界。实验表明：context不管用（这点存疑），语义信息还是只集中在bbox里头，只是用bbox里头的信息能够达到最好的效果。对于如何给bbox提供分数，试验了两种方法，第一种是使用bbox进行训练，然后测试。第二种是使用bbox进行训练，之后在bbox周围进行采样，取最大score（或平均）分类结果作为bbox的分类结果。后者并不能显著改善分数，因此，只选取第一种方法来获得bbox
定义了四种错误，并通过删除错误bbox、修正bbox、删除冗余bbox，添加Bbox来对结果（每张图片，每个类别，单独进行）进行修正，修正的同时计算AP的变化幅度，结果如图：

可以看出来，Cls.（Type 1，背景（真背景以及其他类别）->前景（当前类别））以及Cls（Type 2，前景（当前类别）->背景（真背景以及其他类别））这两种错误修正之后，AP的改变最明显。
四种错误的定义如下：

因为有了修正的这一步骤，AP最终能够达到1。
对于每一个类别的预测，网络都有一个卷积核与之对应，最终输出一个heatmap。在这个heatmap上，其他类别以及真背景作为背景，而当前类别的物体作为前景。Type1说明heatmap存在很多错误的“峰”，而Type2则说明在应该有“峰”的地方有时候是“平”的。总之是类别预测的问题，而另外两个错误的影响并不是很大，NMS所能做的就是尽可能的让Localization Error以及重复框减少，因此并不能很好的改善AP这个指标。
存在的问题：
这篇论文中使用的训练数据只有正样本，没有负样本，训练效果当然是很不错的。而在实际的检测器中，最麻烦的一点就是识别正负样本。这种方法获得的检测器上界过高，无法真正体现出检测这个任务的上界。

2020.2.22

旋转目标检测器：R3Det
https://zhuanlan.zhihu.com/p/108255937

2020.3.1

https://arxiv.org/abs/2002.11359

2020.3.28

GCN

https://zhuanlan.zhihu.com/p/112277874
讲GCN的一个教程，很明白。
GCN：
输入：(V, E)，每个节点v上面都有一个特征。
网络：对特征进行变换，并不断聚集周围的特征
隐层：图的结构没变，特征发生变化
输出：(V, E)，没变，每个节点有一个结果。

比如说文中说的文本分类。NN和GCN有不同的做法
NN：x（文本特征） -> label（标签）
GCN：x and neighbor x（不仅有本文本的特征，还有相邻文本的特征）-> label
所以GCN相当于在NN的基础上使用了特征增强和融合，增强和融合的特征选取利用了图的特征。
目标检测上的话，有什么图结构呢，一个是空间上，各个物体之间的距离，可以构成一种图结构。
在视频上呢？应该也能够使用。

ATSS

正负样本选取。anchor的数量实际上是无意义的，正负样本的选取是本质。
https://zhuanlan.zhihu.com/p/115407465
发现：

Retina与FCOS在相同Trick下，性能相差无几。
不同的定义方法性能差异较大，而回归初始状态对性能影响不大。所以，基本可以确定正负样本的确定方法是影响性能的重要一环。

改进
提出了ATSS方法，Anchor平均IOU高，IOU的标准差越大->Anchor阈值提高

3.29

VGG组最新论文：自动发现和学习新的视觉类别
https://zhuanlan.zhihu.com/p/108448214

2021.3.30

Conditional Positional Encodings for Vision Transformers

在Transformer中使用带有padding的CNN来将位置信息添加到Tranformer中。

On Translation Invariance in CNNs:Convolutional Layers can Exploit Absolute Spatial Location

对三种padding策略（no pad, single pad, full pad），表明了F-pad可以保留平移不变性，有利于目标识别。
三种pad如下图所示：
在这里插入图片描述
F-conv就是在图像边缘多加上几个pad。

How Much Position Information Do Convolutional Neural Networks Encode？

带有pad的CNN可以学到很好的绝对位置的信息，越深越好。

How Much Position Information Do Convolutional Neural Networks Encode？

在这里插入图片描述

带有pad的CNN可以学到很好的绝对位置的信息，越深越好。

Position, Padding and Predictions:A Deeper Look at Position Information in CNNs

上一篇的期刊版，深入的探讨了pad对于预测绝对坐标的作用，以及一系列实验。zero pad是最好的，特征越深，位置信息越多。

FSALICEALEX

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
【论文】人工智能前沿论文集

2020.2.16https://zhuanlan.zhihu.com/p/107060834，https://arxiv.org/pdf/2002.05709.pdfHinton组力作：ImageNet无监督学习最佳性能一次提升7%，媲美监督学习。https://www.zhihu.com/question/355779873，https://arxiv.org/pdf/1911...
复制链接

扫一扫

专栏目录