最新全球科技速览[2020.1.1]-CSDN博客

本文链接：https://blog.csdn.net/weixin_39128119/article/details/103808071

全球技术报告公众号：aihaoers

cs方向，今日共计10篇

[检测分类相关]：object detection

【1】基于学习空间融合的单发目标检测

标题：基于学习空间融合的单发目标检测

作者：Songtao Liu, Di Huang, Yunhong Wang

概要：金字塔形特征表示法是解决对象检测中尺度变化挑战的常用方法。但是，对于基于特征金字塔的单发检测器，不同特征尺度之间的不一致是主要限制。在这项工作中，我们提出了一种新颖的数据驱动的金字塔特征融合策略，称为自适应空间特征融合（ASFF）。它学习了在空间上过滤冲突信息以抑制不一致的方法，从而改善了特征的比例不变性，并引入了几乎免费的推理开销。借助ASFF策略和可靠的YOLOv3基线，我们在MS COCO数据集上实现了最佳的速度精度折衷，在60 FPS时报告了38.1％AP，在45 FPS时报告了42.4％AP，在29 FPS时报告了43.9％AP

源码：https://github.com/ruinmessi/ASFF

链接：https://arxiv.org/pdf/1911.09516v2.pdf

【2】为数不多的射击目标检测与注意力RPN和多关系检测

标题：为数不多的射击目标检测与注意力RPN和多关系检测

作者：旗幡，华威卓，强志堂，玉永大

概要：用于对象检测的常规方法通常需要大量的训练数据，并且准备这种高质量的训练数据非常费力。在本文中，我们提出了一种新颖的少发物体检测网络，该网络旨在仅通过几个带注释的示例来检测看不见类别的物体。我们的方法的核心是我们的Attention-RPN，多关系检测器和对比训练策略，它们利用少量镜头支持集和查询集之间的相似性来检测新颖的对象，同时抑制后台的错误检测。为了训练我们的网络，我们贡献了一个新的数据集，其中包含1000个带有高质量注释的各种对象的类别。据我们所知，这是专门为少数拍摄对象检测而设计的首批数据集之一。训练完我们的捷足先登网络后，无需进一步训练或微调即可检测到看不见类别的物体。我们的方法是通用的，具有广泛的潜在应用。

源码：https://github.com/fanq15/Few-Shot-Object-Detection-Dataset

链接：https://arxiv.org/pdf/1908.01998v2.pdf

[分割/语义相关]：Semantic segmentation

【3】语义分割算法的抽象模型

标题：语义分割算法的抽象模型

作者：Reihaneh Teymoori，Zahra Nabizadeh，Nader Karimi，Shadrokh Samavi

概要：语义分割是对图像中的每个像素进行分类的过程。由于其优势，语义分割可用于许多任务，例如癌症检测，机器人辅助手术，卫星图像分析，自动驾驶汽车控制等。在此过程中，准确性和效率是实现此目的的两个关键目标，并且有几种先进的神经网络。在每种方法中，通过采用不同的技术，已经提出了新的解决方案以提高效率，准确性和降低成本。实现的语义分割方法的多样性使研究难以获得对该领域的全面了解。为了提供全面的观点，本文提供了语义分割任务的抽象模型。所提出的框架由四个通用模块组成，这些模块涵盖了为语义分割所提出的大多数方法。我们还将比较不同的方法，并考虑方法的整体性能中每个部分的重要性。

链接：https://arxiv.org/ftp/arxiv/papers/1912/1912.11995.pdf

【4】高效的视频语义分割与标签传播和细化

标题：高效的视频语义分割与标签传播和细化

作者：Matthieu Paul, Christoph Mayer, Luc Van Gool, Radu Timofte

概要：本文使用混合GPU/CPU方法解决了高清视频的实时语义分割问题。我们提出了一种有效的视频分段（EVS）流水线，该流水线结合了以下内容：（i）在CPU上，一种非常快速的光流方法，用于利用视频的时间方面并将语义信息从一帧传播到下一帧。它与GPU并行运行。（ii）在GPU上，有两个卷积神经网络：一个主要分段网络，用于从头开始预测密集的语义标签；一个Refiner，其设计用于在快速不一致注意模块（IAM）的帮助下改进先前帧的预测）。后者可以识别无法准确传播的区域。根据所需的帧频和精度，我们建议几个工作点。我们的流水线达到的精度水平与现有的实时语义图像分割方法（mIoU超过60％）相比具有竞争优势，同时实现了更高的帧速率。在具有高分辨率帧（2048 x 1024）的流行Cityscapes数据集上，在单个GPU和CPU上，建议的工作点范围为80到1000 Hz。

链接：https://arxiv.org/pdf/1912.11844v1.pdf

[人脸相关]：Face

【5】一个非常小的和快速的模型对于表情识别从人脸图像

标题：一个非常小的和快速的模型对于表情识别从人脸图像

作者：İlke Çuğu, Eren Şener, Emre Akbaş

概要：本文旨在针对来自正面人脸图像的面部表情识别（FER）问题创建极小且快速的卷积神经网络（CNN）。为此，我们采用了流行的知识蒸馏（KD）方法，并发现了它的两个主要缺点：1）需要细粒度的网格搜索来调整温度超参数；2）找到最佳的尺寸精度平衡，人们需要搜索最终的网络大小（或压缩率）。另一方面，事实证明，KD可用于FER问题的模型压缩，并且我们发现，随着模型尺寸的减小，KD的影响变得越来越重要。此外，我们假设使用最大池化层实现的平移不变性对于FER问题不会有用，因为表达式对眼睛和嘴巴周围的细微像素级变化敏感。但是，我们发现使用max-pooling时，在泛化方面有一个有趣的改进。我们在两个广泛使用的FER数据集CK +和Oulu-CASIA上进行了实验。我们使用知识精炼获得的最小模型（MicroExpNet）小于1MB，在Intel i7 CPU上以每秒1851帧的速度工作。尽管精度不如最新技术，但MicroExpNet仍然为设计FER问题的微体系结构提供了重要的见识。我们在两个广泛使用的FER数据集CK +和Oulu-CASIA上进行了实验。我们使用知识精炼获得的最小模型（MicroExpNet）小于1MB，在Intel i7 CPU上以每秒1851帧的速度工作。尽管精度不如最新技术，但MicroExpNet仍然为设计FER问题的微体系结构提供了重要的见识。我们在两个广泛使用的FER数据集CK +和Oulu-CASIA上进行了实验。我们使用知识精炼获得的最小模型（MicroExpNet）小于1MB，在Intel i7 CPU上以每秒1851帧的速度工作。尽管精度不如最新技术，但MicroExpNet仍然为设计FER问题的微体系结构提供了重要的见识。

源码：https://github.com/cuguilke/microexpnet

链接：https://arxiv.org/pdf/1711.07011v4.pdf

[GAN /对抗式/生成式相关]：GAN

【6】规定的生成对抗网络

标题：规定的生成对抗网络

作者：Adji B.Dieng，Francisco JR Ruiz，David M.Blei，Michalis K.Titsias

概要：生成对抗网络（GAN）是一种无监督学习的强大方法。他们在图像领域取得了最先进的性能。但是GAN有两种限制方式。他们经常学习支持率低的分布-一种称为模式崩溃的现象-并且不保证概率密度的存在，这使得无法使用预测对数似然来评估一般性。在本文中，我们开发了规定的GAN（PresGAN）来解决这些缺点。PresGAN将噪声添加到密度网络的输出中，并优化了熵调节的对抗损失。增加的噪声使预测的对数似然性易于处理，并稳定了训练过程。熵正则化工具鼓励PresGAN捕获数据分发的所有模式。拟合PresGAN涉及计算熵正则项的难解梯度。PresGAN使用无偏随机估计值来避免这种难处理性。我们在几个数据集上评估了PresGAN，发现它们减轻了模式崩溃并生成了具有高感知质量的样本。我们还发现，就传统GAN与变体自动编码器（VAE）之间的预测对数似然性而言，PresGAN缩小了性能差距。

源码：https://github.com/adjidieng/PresGANs

链接：https://arxiv.org/pdf/1910.04302v1.pdf

[图像/视频检索]：image retrieval

【7】基于内容的图像检索加速

标题：基于内容的图像检索加速

作者：Sadegh Fadaei, Abdolreza Rashno, Elyas Rashno

概要：基于内容的图像检索（CBIR）是一项从图像内容中检索图像的任务。由于在大型图像数据库中检索过程是一项耗时的任务，因此加速方法可能非常有用。本文提出了一种新的方法来加速CBIR系统。在提出的方法中，首先从查询图像中提取Zernike矩，然后为该查询计算一个间隔。数据库中超出间隔的图像在检索过程中将被忽略。因此，在检索之前会发生数据库缩减，从而加快了速度。结果表明，在精简数据库中，保留了与查询图像相关的图像，并丢弃了不相关的图像。因此，提出的方法可以加快检索速度，同时保持CBIR准确性。

链接：https://arxiv.org/pdf/1911.11379v2.pdf

【8】大规模对象级图像检索的动态空间验证

标题：大规模对象级图像检索的动态空间验证

作者：Joel Brogan，Aparna Bharati，Daniel Moreira，Kevin Bowyer，Patrick Flynn，Anderson Rocha，Walter Scheirer

概要：社交媒体中的图像可以反映出不同的观点，激烈的争论和创造力的表达，为检索任务增加了新的复杂性。传统上，基于内容的图像检索（CBIR）的研究人员已经对其算法进行了调整，以使过滤后的结果与用户搜索意图相匹配。但是，现在我们被未知来源，真实性甚至意义未知的合成图像轰炸。由于存在这种不确定性，用户可能对搜索查询的结果应该是什么样子一无所知。例如，隐藏的人物，剪接的物体和微妙变化的场景可能很难使用户最初在模型图像中检测到，但可能对其构图有很大贡献。我们提出了一种用于空间验证的新方法，该方法旨在为2D Hough空间中的动态聚类关键点的对象级区域建模，然后将其用于精确加权结果中的小的贡献对象，而无需进行昂贵的对象检测步骤。我们将此方法称为“场景中的对象”到“场景中的对象”（OS2OS）分数，并且针对CPU上的快速矩阵运算进行了优化。在经典的CBIR问题中，OS2OS在牛津5K，巴黎6K和Google Landmarks数据集上的性能与最新方法相当，而无需边界框。它还成功完成了新兴的检索任务，例如NIST MFC2018数据集中的图像合成匹配和Reddit的模型风格合成图像。在经典的CBIR问题中，OS2OS在牛津5K，巴黎6K和Google Landmarks数据集上的性能与最新方法相当，而无需边界框。它还成功完成了新兴的检索任务，例如NIST MFC2018数据集中的图像合成匹配和Reddit的模型风格合成图像。在经典的CBIR问题中，OS2OS在牛津5K，巴黎6K和Google Landmarks数据集上的性能与最新方法相当，而无需边界框。它还成功完成了新兴的检索任务，例如NIST MFC2018数据集中的图像合成匹配和Reddit的模型风格合成图像。

链接：https://arxiv.org/pdf/1903.10019v4.pdf

[半/弱/无监督相关]：Unsupervised

【9】HOMM：高阶矩匹配的非监督领域适应性

标题：HOMM：高阶矩匹配的非监督领域适应性

作者：陈超，志航福，志宏陈，生津，赵伟程，新余金，献胜华

概要：最小化不同域之间特征分布的差异是无监督域自适应中最有希望的方向之一。从分布匹配的角度来看，大多数现有的基于差异的方法都设计为匹配二阶或更低的统计量，但是，对于非高斯分布，其统计特征的表达有限。在这项工作中，我们探索了使用高阶统计信息（主要是指三阶和四阶统计信息）进行域匹配的好处。我们提出了一种高阶矩匹配（HoMM）方法，并将HoMM进一步扩展到再现内核希尔伯特空间（RKHS）。特别是，我们提出的HoMM可以执行任意阶矩张量匹配，我们表明，一阶HoMM等效于最大平均差异（MMD），二阶HoMM等效于相关对齐（CORAL）。此外，由于高阶统计量可以近似更复杂的非高斯分布，因此三阶和四阶矩张量匹配有望执行全面的域对齐。此外，我们还利用伪标记的目标样本来学习目标域中的区分表示，从而进一步提高了传输性能。进行了广泛的实验，表明我们提出的HoMM始终在很大程度上优于现有的矩量匹配方法。

源码：https://github.com/chenchao666/HoMM-Master

链接：https://arxiv.org/pdf/1912.11976v1.pdf

[视频理解VQA /字幕等]：Video understanding

【10】大型整体视频理解

标题：大型整体视频理解

作者：Ali Diba, Mohsen Fayyaz, Vivek Sharma, Manohar Paluri, Jurgen Gall, Rainer Stiefelhagen, Luc Van Gool

概要：近年来，具有丰富注释的基准已经使视频识别得到了提高。但是，研究仍主要限于人类动作或运动识别-专注于高度具体的视频理解任务，因此在描述视频的整体内容方面存在很大差距。我们通过提出大规模的“整体视频理解数据集”〜（HVU）来填补这一空白。HVU是按语义分类法进行分层组织的，该分类法关注于多标签和多任务视频理解，这是一个综合性问题，涵盖了动态场景中多个语义方面的识别。HVU总共包含约572k的视频，带有900万条注释，用于跨越3457个标签的培训，验证和测试集。HVU包含在场景，对象，动作，事件，属性和概念自然可以捕捉到现实世界中的场景。此外，我们介绍了一种新的时空深度神经网络架构，称为“整体外观和时态网络”（HATNet），它通过将外观和时间提示的中间表示相结合，将2D和3D架构融合在一起。HATNet专注于多标签和多任务学习问题，并以端到端的方式进行培训。实验表明，在HVU上训练的HATNet在具有挑战性的人类动作数据集HMDB51，UCF101和Kinetics方面优于当前的最新方法。数据集和代码将公开提供。

链接：https://arxiv.org/pdf/1904.11451v2.pdf