【论文】人工智能前沿论文集

2020.2.16

  • https://zhuanlan.zhihu.com/p/107060834,
    https://arxiv.org/pdf/2002.05709.pdf
    Contrastive Learning
    Hinton组力作:ImageNet无监督学习最佳性能一次提升7%,媲美监督学习。
    这篇论文是关于Contrastive Learning的,学习器由四个部件组成:数据生成器,特征产生网络,投影网络,对比损失函数。生成器根据原始数据产生出成对的样本,经过网络产生特征,并投影。在对比损失函数中,成对的样本为正样本,而产生源不同的样本互为负样本,负样本的特征要排斥,正样本靠近,由此学习到稳健的特征。
    测试方法是根据得到的特征训练线性分类器,根据线性分类器的表现来评估特征产生器的效果。
    Contrastive Learning相关的一些介绍:
    https://zhuanlan.zhihu.com/p/75412895

  • https://www.zhihu.com/question/355779873
    https://arxiv.org/pdf/1911.05722.pdf
    Contrastive Learning
    Kaiming He的Momentum Contrast for Unsupervised,无监督目标检测。

2020.2.17

  • SKNet网络
    https://zhuanlan.zhihu.com/p/59690223
    自适应调整感受野尺寸
    Attention机制:
    https://www.zhihu.com/question/68482809/answer/770228379

2020.2.19-2020.2.20

  • 目标检测的评估准则分析
  • https://zhuanlan.zhihu.com/p/94990078
    https://arxiv.org/abs/1611.10012
    Speed/accuracy trade-offs for modern convolutional object detectors
  • https://arxiv.org/abs/1911.12451
Empirical Upper Bound in Object Detection and More

这篇文章是重点。
总结如下:
assumption:

  • 定位问题已经解决
    contribution:
  • 定义了一种上界(UAP),假定定位问题(bbox均为GT)已经解决,然后使用网络去学习分类分数,之后计算AP,借此来的得到上界。实验表明:context不管用(这点存疑),语义信息还是只集中在bbox里头,只是用bbox里头的信息能够达到最好的效果。对于如何给bbox提供分数,试验了两种方法,第一种是使用bbox进行训练,然后测试。第二种是使用bbox进行训练,之后在bbox周围进行采样,取最大score(或平均)分类结果作为bbox的分类结果。后者并不能显著改善分数,因此,只选取第一种方法来获得bbox
  • 定义了四种错误,并通过删除错误bbox、修正bbox、删除冗余bbox,添加Bbox来对结果(每张图片,每个类别,单独进行)进行修正,修正的同时计算AP的变化幅度,结果如图:
    在这里插入图片描述
    可以看出来,Cls.(Type 1,背景(真背景以及其他类别)->前景(当前类别))以及Cls(Type 2,前景(当前类别)->背景(真背景以及其他类别))这两种错误修正之后,AP的改变最明显。
    四种错误的定义如下:
    在这里插入图片描述
    因为有了修正的这一步骤,AP最终能够达到1。
    对于每一个类别的预测,网络都有一个卷积核与之对应,最终输出一个heatmap。在这个heatmap上,其他类别以及真背景作为背景,而当前类别的物体作为前景。Type1说明heatmap存在很多错误的“峰”,而Type2则说明在应该有“峰”的地方有时候是“平”的。总之是类别预测的问题,而另外两个错误的影响并不是很大,NMS所能做的就是尽可能的让Localization Error以及重复框减少,因此并不能很好的改善AP这个指标。
    存在的问题:
  • 这篇论文中使用的训练数据只有正样本,没有负样本,训练效果当然是很不错的。而在实际的检测器中,最麻烦的一点就是识别正负样本。这种方法获得的检测器上界过高,无法真正体现出检测这个任务的上界。

2020.2.22

  • 旋转目标检测器:R3Det
    https://zhuanlan.zhihu.com/p/108255937

2020.3.1

https://arxiv.org/abs/2002.11359

2020.3.28

GCN

https://zhuanlan.zhihu.com/p/112277874
讲GCN的一个教程,很明白。
GCN:
输入:(V, E),每个节点v上面都有一个特征。
网络:对特征进行变换,并不断聚集周围的特征
隐层:图的结构没变,特征发生变化
输出:(V, E),没变,每个节点有一个结果。

比如说文中说的文本分类。NN和GCN有不同的做法
NN:x(文本特征) -> label(标签)
GCN:x and neighbor x(不仅有本文本的特征,还有相邻文本的特征)-> label
所以GCN相当于在NN的基础上使用了特征增强和融合,增强和融合的特征选取利用了图的特征。
目标检测上的话,有什么图结构呢,一个是空间上,各个物体之间的距离,可以构成一种图结构。
在视频上呢?应该也能够使用。

ATSS

正负样本选取。anchor的数量实际上是无意义的,正负样本的选取是本质。
https://zhuanlan.zhihu.com/p/115407465
发现:

  1. Retina与FCOS在相同Trick下,性能相差无几。
    不同的定义方法性能差异较大,而回归初始状态对性能影响不大。所以,基本可以确定正负样本的确定方法是影响性能的重要一环

改进
提出了ATSS方法,Anchor平均IOU高,IOU的标准差越大->Anchor阈值提高

3.29

VGG组最新论文:自动发现和学习新的视觉类别
https://zhuanlan.zhihu.com/p/108448214

2021.3.30

Conditional Positional Encodings for Vision Transformers

在Transformer中使用带有padding的CNN来将位置信息添加到Tranformer中。

On Translation Invariance in CNNs:Convolutional Layers can Exploit Absolute Spatial Location

对三种padding策略(no pad, single pad, full pad),表明了F-pad可以保留平移不变性,有利于目标识别。
三种pad如下图所示:
在这里插入图片描述
F-conv就是在图像边缘多加上几个pad。

How Much Position Information Do Convolutional Neural Networks Encode?

带有pad的CNN可以学到很好的绝对位置的信息,越深越好。

How Much Position Information Do Convolutional Neural Networks Encode?

在这里插入图片描述

带有pad的CNN可以学到很好的绝对位置的信息,越深越好。

Position, Padding and Predictions:A Deeper Look at Position Information in CNNs

上一篇的期刊版,深入的探讨了pad对于预测绝对坐标的作用,以及一系列实验。zero pad是最好的,特征越深,位置信息越多。

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值