【AI视野·今日CV 计算机视觉论文速览第230期】Fri, 2 Jul 2021_deep orthogonal fusion: multimodal prognostic biom-CSDN博客

本文链接：https://blog.csdn.net/u014636245/article/details/118424695

AI视野·今日CS.CV 计算机视觉论文速览
Fri, 2 Jul 2021
Totally 69 papers
👉上期速览✈更多精彩请移步主页

在这里插入图片描述

Interesting:

****📚CSWin Transformer, 窗口交叉叠加进行抽取的transformer主干网络(from 中科大)
在这里插入图片描述

code:https://github.com/microsoft/CSWin-Transformer.

*****📚AutoFormer, 视觉Transformer的自动搜索架构 (from 纽约州立大学石溪分校)
在这里插入图片描述

code:https://github.com/microsoft/AutoML

**📚VideoLightFormer,轻量级的动作识别transformer (from 谢菲尔德大学)
在这里插入图片描述

****📚Focal Transformer, 聚焦自注意力使得全局和局部信息进行有效交互(from 微软研究院)
在这里插入图片描述

📚*****OPT,用于交叉模态理解和生成的全方位感知预训练模型 (from 中科院自动化所)
在这里插入图片描述

📚***多模态融合注意力瓶颈层blocks, (from 谷歌)
our model forces information between different modalities to pass through a small number of bottleneck latents, requiring the model to collate and condense the most relevant information in each modality and only share what is necessary。
在这里插入图片描述

📚CLIP-It, 语言引导的视频综述。(from Berkeley)
在这里插入图片描述

code:https://medhini.github.io/clip_it

📚, (from )

📚基于生成模型的点云压缩, (from Universite Paris-Saclay)
在这里插入图片描述

📚Interviewer-Candidate Role Play, (from 亚利桑那州立 )
在这里插入图片描述

📚MIDV-2020](https://arxiv.org/ftp/arxiv/papers/2107/2107.00396.pdf),超大规模身份证数据集 (from 俄罗斯科学院)
在这里插入图片描述

ftp://smartengines.com/midv-2020
 http://l3i-share.univ-lr.fr.
 ftp://smartengines.com/midv-500/documents.pdf
 https://generated.photos 
 https://github.com/SmartEngines/hough_document_locali
zation

****📚Total Relighting, 背景替换过程中的重光照方法 (from Google Research )
在这里插入图片描述

Daily Computer Vision Papers

CSWin Transformer: A General Vision Transformer Backbone with Cross-Shaped Windows
Authors Xiaoyi Dong, Jianmin Bao, Dongdong Chen, Weiming Zhang, Nenghai Yu, Lu Yuan, Dong Chen, Baining Guo
我们介绍克斯宾变压器，一种高效且有效的变压器基骨干，用于通用视觉任务。变压器设计中的一个具有挑战性的问题是，全球自我关注计算成本昂贵，而本地自我注意力通常会限制每个令牌的相互作用。为了解决这个问题，我们开发了交叉形窗口自我注意机制，用于并行地在水平和垂直条纹中计算自我注意，该窗口形成一个交叉形窗口，通过将输入特征分成相等宽度的条纹而获得的每个条纹。我们提供了条纹宽度的效果的详细数学分析，并改变变压器网络的不同层的条纹宽度，这在限制计算成本时实现了强大的建模能力。我们还介绍了本地增强的位置编码LEPE，它比现有的编码方案更好地处理本地位置信息。 LEPE自然支持任意输入分辨率，因此对下游任务特别有效和友好。 CSWIN变压器并入了这些设计和分层结构，展示了普通视觉任务的竞争性能。具体而言，它在ImageNet 1K上实现了85.4前1个精度，无需任何额外的培训数据或标签，53.9盒AP和46.4个面罩AP上的ADE20K语义分割任务上的51.7 Miou，超过了先前的艺术状态的艺术品在类似的拖布设置下分别在1.2,2.0,1.4和2.0下括号。通过在较大的数据集ImageNet 21K上进行进一步预先预订，我们在Imagenet 1K上实现了87.5前1个精度，并在ADE20K上实现了55.2 miou的艺术分割性能。代码和模型将可用

AutoFormer: Searching Transformers for Visual Recognition
Authors Minghao Chen, Houwen Peng, Jianlong Fu, Haibin Ling
最近，纯变压器的模型对视觉任务（如图像分类和检测）表示了很大的潜力。然而，变压器网络的设计具有挑战性。已经观察到，深度，嵌入尺寸和头部的数量可能在很大程度上影响视觉变压器的性能。以前的型号根据手动制作配置这些尺寸。在这项工作中，我们提出了一个新的一拍架构搜索框架，即专用于视觉变压器搜索的自动成形。自动成形器在超培训期间纠缠在同一层中的不同块的权重。受益于战略，训练有素的超网络允许成千上万的子网训练良好。具体地，这些子网的性能与从超螺向期继承的权重的性能与从头开始再次训练的那些相当。此外，我们参考自动成型器的搜索模型超越了最近的艺术状态，如Vit和Deit。特别是，自动成形式微小的小碱可以分别实现74.7 81.7 82.4前1个170.9mm 53.7m参数的想象。最后，我们通过在下游基准和蒸馏实验中提供性能来验证自动成形器的可转换性。代码和型号可用

CLIP-It! Language-Guided Video Summarization
Authors Medhini Narasimhan, Anna Rohrbach, Trevor Darrell
通用视频摘要是一个视频的删节版本，它传达了整个故事并具有最重要的场景。然而，视频中的场景的重要性通常是主观的，用户应该可以选择通过使用自然语言来定制摘要来指定对它们重要的内容。此外，用于全自动通用摘要的现有模型没有利用可用的语言模型，可以作为显着性的有效。这项工作介绍了一个框架，一种用于解决通用和查询聚焦视频概要的单一框架，通常在文献中单独接近。我们提出了一种语言指导多模式变压器，该多模式变压器学习基于它们相对于彼此的重要性以及与用户定义查询的重要性来评分视频中的帧，用于查询聚焦概述或用于通用视频概要的自动生成的密集视频标题。我们的模型可以通过培训来扩展到无人监督的环境，而无需基础真相监督。我们以标准视频摘要数据集TVSUM和SUMPE的重大边际和查询聚焦视频摘要数据集QFV，以外的基线和先前的工作。特别是，我们在转移设置中取得了大量的改进，证明了我们的方法S的强大泛化能力。

On the Practicality of Deterministic Epistemic Uncertainty
Authors Janis Postels, Mattia Segu, Tao Sun, Luc Van Gool, Fisher Yu, Federico Tombari
一系列新的用于估算具有单向通行证的深神经网络中的认知不确定性的新方法，最近被成为贝叶斯神经网络的有效替代品。在信息性陈述的前提下，这些确定性的不确定性方法Dums在推出推断时间增加可忽略的计算成本时，Dums在检测到分配ood数据的情况下实现了很强的性能。然而，仍然尚不清楚Dums是否均匀校准，并且可以无缝地扩展到现实世界应用的先决条件的实际部署。为此，我们首先提供了一种DUM的分类，在连续分布换档时评估它们的校准及其对图像分类任务的ood检测的性能。然后，我们将最有希望的语义分割途径扩展。我们发现，当Dums缩放到现实的视觉任务并对OOD检测表现良好，而当前方法的实用性受到现实分布换档下的校准不良而受到破坏。

Deep Orthogonal Fusion: Multimodal Prognostic Biomarker Discovery Integrating Radiology, Pathology, Genomic, and Clinical Data
Authors Nathaniel Braman, Jacob W. H. Gordon, Emery T. Goossens, Caleb Willis, Martin C. Stumpe, Jagadish Venkataraman
肿瘤学的临床决策涉及多峰数据，如放射学扫描，分子分析，组织病理学载玻片和临床因素。尽管这些方式的重要性单独地，但迄今为止没有深入的学习框架使他们所有人都将其所有人组成以预测患者预后。在这里，我们预测来自不同多媒体数据的胶质瘤患者的整体存活OS，具有深度正交的融合DOF模型。该模型学会将来自多次MRI考试的信息组合，基于活检的模态，如H e Slide图像和或DNA测序，以及临床变量进入全面的多峰风险分数。通过注意门控张解器融合来学习和组合每种方式的预后嵌入。为了最大化从每种方式收集的信息，我们引入了多模式正交化MMO丢失项，通过激励成分嵌入来增加模型性能，以更加互补。 DOF预测胶质瘤患者的OS，中位数C指数为0.788 0.067，显着优于P <0.023最佳性能的单峰模型，中位数C指数为0.718 0.064。预后模型在临床子集中通过OS对胶质瘤患者进行了显着分层，对预后临床分级和分子亚型增加了进一步的粒度。

Global Filter Networks for Image Classification
Authors Yongming Rao, Wenliang Zhao, Zheng Zhu, Jiwen Lu, Jie Zhou
最近的自我关注和纯多层Perceptrons MLP模型的愿景模型表现出具有较少归纳偏差的有希望的性能的巨大潜力。这些模型通常基于从原始数据的空间位置之间的学习交互。随着图像尺寸的增加，自我注意力和MLP的复杂性逐渐增长，这使得这些模型在需要高分辨率特征时使这些模型难以扩展。在本文中，我们介绍了全局过滤器网络GFNET，这是一个概念上简单但计算的高效架构，它在具有日志线性复杂度的频域中学习长期空间依赖性。我们的体系结构在视觉变压器中取代了自我注意层，具有三个关键操作A 2D离散傅里叶变换，频域特征和学习全局滤波器之间的元素明智乘法，以及2D逆傅里叶变换。我们在想象中心和下游任务中表现出我们模型的有利精度复杂性贸易。我们的结果表明，GFNET可以是对变压器风格模型和CNN的效率，泛化能力和鲁棒性的非常竞争的替代品。代码可用

Focal Self-attention for Local-Global Interactions in Vision Transformers
Authors Jianwei Yang, Chunyuan Li, Pengchuan Zhang, Xiyang Dai, Bin Xiao, Lu Yuan, Jianfeng Gao
最近，视觉变压器及其变体对各种计算机愿景任务表示了很大的希望。通过自我关注捕获短期和长距离视觉依赖性的能力可以说是成功的主要来源。但它也带来了由于二次计算开销导致的挑战，特别是对于高分辨率视觉任务，例如，对象检测。在本文中，我们提出了局灶性自我关注，这是一种新的机制，该机制包括局部颗粒的局部和粗粒粒度的全局相互作用。每个令牌使用这种新机制，每个令牌参加精细粒度的最近的周围令牌，但令牌远离粗糙的粒度，因此可以有效且有效地捕获短期和长距离视觉依赖性。通过焦点自我注意，我们提出了一种新的视觉变压器模型变体，称为焦距变压器，这在一系列公共图像分类和对象检测基准测试中实现了卓越的性能。特别是，我们的焦点变压器模型具有51.1亿的中等尺寸，尺寸较大89.8米，分别在224x224分辨率下的Imagenet分类达到83.5和83.8前面的精度。使用焦距变压器作为骨干，我们通过标准1X和3X时间表接受培训的6种不同的物体检测方法，获得了一致的和大量改进。我们最大的焦点变压器收益率58.7 58.9框图和50.9 51.3 Coco Mini Val Test Dev上的掩模地图，55.4 Miou在Ade20K上进行语义分割，在最具挑战性的计算机视觉任务中创造了新的Sota。

Semi-Sparsity for Smoothing Filters
Authors Junqing Huang, Haihui Wang, Xuechao Wang, Michael Ruzhansky
在本文中，我们提出了一种基于新型稀疏性诱导优化框架的有趣的半稀疏平滑算法。该方法源自多个观察，即半稀疏性先验知识更普遍适用，特别是在稀疏性未被完全录取的区域，例如多项式平滑表面。我们说明，可以在高阶梯度域中识别出该半稀疏性在更高阶梯度域中的广义L 0常态最小化，从而引发新的特征意识过滤方法，具有稀疏特征奇点和锐化边缘和非稀疏区域的强大同步拟合能力多项式平滑表面。请注意，由于L 0规范最小化的非凸起和组合性质，直接求解器始终不可用。相反，我们根据快速傅里叶变换FFT来解决基于高效半二次分割最小化的模型，用于加速度。我们终于展示了它的多功能性和许多益处，以及一系列信号图像处理和计算机视觉应用。

Action Transformer: A Self-Attention Model for Short-Time Human Action Recognition
Authors Vittorio Mazzia, Simone Angarano, Francesco Salvetti, Federico Angelini, Marcello Chiaberge
纯粹关注的深度神经网络在几个域中取得了成功，依赖于设计师的最小建筑前瞻性。在人类行动识别仓中，主要是在标准卷积或复发层的顶部采用关注机制，从而提高了整体泛化能力。在这项工作中，我们介绍了动作变压器行为，这是一种简单的完全自我注意的架构，始终如一地优于混合卷积，复发和细节层的更具详细的网络。为了限制计算和能源请求，建立在以前的人类行动识别研究中，所提出的方法利用小型时间窗口的2D姿势表示，为准确且有效的实时性能提供低延迟解决方案。此外，我们开源MOMES2021是一个新的大型数据集，作为建立正式培训和评估基准的实时短时的人类行动认可。通过我们提出的方法和几种以前的建筑解决方案对MOMES2021进行了广泛的实验证明了该法案模型的有效性，并为未来的哈尔的工作构成了基础。

A Unified Framework of Bundle Adjustment and Feature Matching for High-Resolution Satellite Images
Authors Xiao Ling, Xu Huang, Rongjun Qin
捆绑调整BA是一种用于精制卫星图像的传感器方向的技术，而调整精度与特征匹配结果相关。特征匹配通常包含弱重复纹理中的高不确定性，而BA结果则有助于减少这些不确定性。为了计算更准确的方向，本文在统一框架中的速率BA和功能匹配，并将工会配制为全局能量功能的优化，以便彼此限制BA和特征匹配的解决方案。为了避免在优化中的退化，我们通过将全局能量函数的优化分成两个步骤子优化来提出包括的解决方案，并以增量方式计算每个子优化的局部最小值。多视图高分辨率卫星图像的实验表明，我们所提出的方法优于具有或没有准确的最小二乘匹配的理想方向技术的状态。

Individual Tree Detection and Crown Delineation with 3D Information from Multi-view Satellite Images
Authors Changlin Xiao, Rongjun Qin, Xiao Xie, Xu Huang
单个树检测和皇冠描绘ITDD在森林库存管理中至关重要，并且基于遥感的森林调查主要通过卫星图像进行。然而，这些调查中的大多数仅使用2D光谱信息，该信息通常没有足够的IDD线索。为了完全探索卫星图像，我们提出了一种使用从多视图卫星数据衍生的正极光电极和数字表面模型DSM的ITDD方法。我们的算法利用顶帽形态操作，以有效地将局部最大值从DSM提取为树梢，然后将它们馈送到Modi Fied SuperPixel分段，该分段结合了树冠划分的2D和3D信息。在随后的步骤中，我们的方法包括通过植物同种术方程来伪造潜在异常值的生物学特性。对三个代表区手动标记树图的实验已经证明了有希望的结果最佳的整体检测精度可以是89。

3D Iterative Spatiotemporal Filtering for Classification of Multitemporal Satellite Data Sets
Authors Hessah Albanwan, Rongjun Qin, Xiaohu Lu, Mao Li, Desheng Liu, Jean Michel Guldmann
土地覆盖土地利用变更分析的目前的实践严重依赖于多立体数据集的单独分类地图。由于不同的采集条件，例如，照明，传感器，季节性差异，所产生的分类图通常不一致地通过稳健统计分析。 3D几何特征已被显示为稳定，用于评估跨时间数据集的差异。因此，在本文中，我们调查使用源自卫星数据的多立体正芯片和数字表面模型进行时尚分类。我们的方法包括使用具有有限训练样本的随机森林分类器的每类概率分布图的两个主要步骤组成，并使用每类概率图操作的迭代3D时空滤波器进行时空推断。我们的实验结果表明，该方法可以始终如一地改善单个分类结果2 6，因此可以是一个重要的分类细化方法。

Inter Extreme Points Geodesics for Weakly Supervised Segmentation
Authors Reuben Dorent, Samuel Joutard, Jonathan Shapey, Aaron Kujawa, Marc Modat, Sebastien Ourselin, Tom Vercauteren
我们介绍帖子inextremis，一种弱监督的3D方法，用于使用特别弱列的列车时间注释训练深度图像分割网络仅在感兴趣的对象的边界处仅重新点击。我们的全自动方法是训练结束到结束，不需要任何测试时间注释。从极端点，3D边界框在感兴趣的对象周围提取。然后，生成连接极端点的深层大测地仪以增加边界盒内的带注释的体素量。最后，使用从条件随机场制剂衍生的弱监督正则损失用于促进均匀区域的预测一致性。对前庭施瓦马瘤细分的大型开放数据集进行了广泛的实验。 Textit Inextremis获得了竞争性能，基于边界箱的其他弱监管技术接近完全监督和表现。此外，鉴于固定的注释时间预算，Textit Inextremis优于完全监督。我们的代码和数据在线提供。

SALYPATH: A Deep-Based Architecture for visual attention prediction
Authors Mohamed Amine Kerkouri, Marouane Tliba, Aladine Chetouani, Rachid Harba
人类的愿景自然是由他们的观点领域的一些地区更加吸引。这种内在选择性机制如此称为视觉关注，受到高水平因素的影响，例如全球环境照明，背景纹理等，刺激特征颜色，强度，方向等，以及一些先前的视觉信息。可视注意对许多计算机视觉应用程序（如图像压缩，识别和标题）有用。在本文中，我们提出了最后基于深度的方法，因此称为Salypath显着性和扫描路径，从而通过显着模型的特征有效地预测图像的扫描路径。通过利用基于深度模型来预测显着性的容量来预测扫描路径。所提出的方法通过2个众所周知的数据集进行评估。得到的结果表明，建议的框架与艺术模式相比的相关性。

On the detection-to-track association for online multi-object tracking
Authors Xufeng Lin, Chang Tsun Li, Victor Sanchez, Carsten Maple
通过深度神经网络的对象检测的最近进步驱动，通过检测范例的跟踪在多目标跟踪MOT的研究界中获得了越来越普遍。首先是已知外观信息在检测中起着重要作用，以跟踪关联，其在跟踪的核心通过检测范式追踪。虽然大多数现有作品考虑检测和轨道之间的外观距离，但它们忽略轨道中暗示暗示的统计信息，当检测具有两个或更多个轨道时，这可能特别有用。在这项工作中，我们提出了一种混合轨道关联HTA算法，其利用增量高斯混合模型IGMM模拟轨道的历史外观距离，并将导出的统计信息包含到检测的计算中以跟踪关联成本。三个MOT基准的实验结果证实，HTA有效地提高了对跟踪速度的小折衷了目标识别性能。此外，与许多艺术跟踪器的状态相比，在跟踪质量和速度的平衡方面，配备HTA的Deepsort跟踪器的性能更好或相当。

VideoLightFormer: Lightweight Action Recognition using Transformers
Authors Raivo Koot, Haiping Lu
高效的视频动作识别仍然是一个具有挑战性的问题。之后的一个大型模型取代了动力学数据集的最新状态的地方，但仍然缺乏现实世界效率评估。在这项工作中，我们填补了这个差距并调查了变压器的使用以实现高效行动识别。我们提出了一种小说，轻量级的动作识别架构视频态度。以一种分解方式，我们用变压器仔细扩展了2D卷积时间段网络，同时在整个模型中保持空间和时间视频结构。现有方法经常诉诸两个极端之一，他们要么将巨大的变压器应用于视频功能，或在高度汇集的视频功能上的最小变压器。我们的方法通过保持变压器模型小，但利用全日葵特征结构来不同。我们在临时要求史诗厨房100和V2 SSV2数据集的某些东西上以高效设置评估VideolightFormer，并发现它比SSV2上的时间换档模块相比，它实现了比现有技术的现有状态更好的效率和准确性。

Overhead-MNIST: Machine Learning Baselines for Image Classification
Authors Erik Larsen, David Noever, Korey MacVittie, John Lilly
培训二十三种机器学习算法，然后评分为建立基线比较度量，并选择值得嵌入到任务关键卫星成像系统的图像分类算法。开销Mnist DataSet是一系列类似风格的卫星图像，用于在机器学习文献中发现的无处不在的MNIST手写数字。 CATBoost分类器，轻梯度升压机和极端梯度提升模型产生了最高的精度，曲线AUC下的区域，以及PyCaret一般比较中的F1分数。单独的评估表明，深度卷积的建筑是最有前途的。我们为EDGE部署性和未来性能改进的基线提供了总体表现最佳性能算法的结果，卷积神经网络CNN在看不见的试验数据中评分0.965分类准确性。

Learning to Disambiguate Strongly Interacting Hands via Probabilistic Per-pixel Part Segmentation
Authors Zicong Fan, Adrian Spurr, Muhammed Kocabas, Siyu Tang, Michael J. Black, Otmar Hilliges
在自然谈话和互动中，我们的手经常重叠或彼此接触。由于手的均匀外观，这使得估计从图像互动的3D姿势困难。在本文中，我们证明了自我相似性，以及将像素观测分配给各自的手和它们的部分的产生的歧义是最终3D姿势错误的主要原因。通过这种洞察力，我们提出数字，一种用于估计来自单眼图像的两个交互手的3D姿势的新方法。该方法包括两个交织分支，该分支处理输入图像到每个像素语义部分分割掩码和视觉特征卷。与事先工作相比，我们不会从姿势估计阶段解耦，而是直接在下游姿势估计任务中利用每个像素概率。为此，零件概率与视觉功能合并并通过完全卷积的层进行处理。我们通过实验表明，所提出的方法在所有度量标准中实现了Interwand2.6M数据集的新技术。我们提供详细的消融研究，以证明我们的方法的功效，并提供对像素所有权的建模如何影响单一和交互手术估计的洞察。我们的代码将用于研究目的。

Segmenting 3D Hybrid Scenes via Zero-Shot Learning
Authors Bo Liu, Qiulei Dong, Zhanyi Hu
这项工作是解决零射击学习框架下3D混合场景点云语义分割问题。这里通过混合动力，我们的意思是场景由两种类和看不见的3D对象组成，在应用程序中具有更一般和现实的设置。为了我们的知识，文学中尚未探讨这个问题。为此，我们提出了一种网络来通过利用所看到和未经看不见的对象类的语义特征来综合各种类对象的点特征，称为PFNet。该提议的PFNET采用GAN架构来合成点特征，其中通过调整新的语义规范器来合并所看到的类和未经看不见的类特征的语义关系，并且合成的功能用于训练分类器以预测测试3D的标签场景点。此外，我们还通过在六个不同的数据拆分下组织公共S3DIS和SCANNet数据集来介绍两个用于算法评估的基准。两台基准测试的实验结果验证了我们所提出的方法，我们希望我们推出的两个基准和方法可能有助于更多关于这种新方向的研究。

Generating Synthetic Training Data for Deep Learning-Based UAV Trajectory Prediction
Authors Stefan Becker, Ronny Hug, Wolfgang H bner, Michael Arens, Brendan T. Morris
基于深度学习的模型，例如经常性神经网络RNN，已经应用于各种序列学习任务，以获得巨大的成功。在此之后，这些模型越来越多地替换对象跟踪应用中的经典方法，用于运动预测。一方面，这些模型可以通过所需的较少建模捕获复杂的对象动态，但另一方面，它们依赖于参数调谐的大量训练数据。为此，我们提出了一种在图像空间中产生无人机空中车辆无人机的合成轨迹数据的方法。由于无人机，或者相当四分波传输是动态系统，因此它们无法遵循任意轨迹。通过先决条件，UAV轨迹满足对应于更高阶运动的最小变化的平滑度标准，可以利用规划侵略性四轮机器飞行的方法通过一系列3D航点产生最佳轨迹。通过投影适用于控制四轮压积器的机动轨迹，实现了图像空间，实现了多功能轨迹数据集。为了展示合成轨迹数据的适用性，我们表明，基于RNN的预测模型，仅培训了所生成的数据可以在真实世界UAV跟踪数据集上优于经典的参考模型。评估是在公开可用的反UAV数据集完成的。

CBNetV2: A Composite Backbone Network Architecture for Object Detection
Authors Tingting Liang, Xiaojie Chu, Yudong Liu, Yongtao Wang, Zhi Tang, Wei Chu, Jingdong Chen, Haibing Ling
现代顶部执行对象探测器在很大程度上取决于骨干网络，其进步通过探索更有效的网络结构来带来一致的性能。然而，设计或搜索新的骨干并在想象中预先训练它可能需要大量的计算资源，使得获得更好的检测性能昂贵。在本文中，我们提出了一种新颖的骨干网，即CBNetv2，通过构建现有的开放式预训练骨干的组成。特别是，CBNetv2架构组多个相同的底座，它们通过复合连接连接。我们还提出了一个更好的培训策略，与基于CBNet的探测器的助理监督。如果没有额外的预训练，CBNetv2可以集成到主流探测器中，包括一个阶段和两个阶段探测器，以及基于锚的锚和基于锚的探测器，并且在Coco上的基线上显着提高它们的性能。此外，实验提供了强有力的证据，表明复合骨架比预训练的更广泛和更深的网络更有效，资源友好，包括基于手动的和基于NAS，以及基于CNN和基于变压器的NAS。特别是，通过单模和单模测试，我们的HTC双流B型盒子AP和51.1掩模AP在Coco Test Dev上实现，这明显优于最先进的状态，即57.7盒AP和50.2掩模AP一个更强大的基线HTC，带有较大的骨干卫生间Swin L.代码将被释放

DVS-Attacks: Adversarial Attacks on Dynamic Vision Sensors for Spiking Neural Networks
Authors Alberto Marchisio, Giacomo Pira, Maurizio Martina, Guido Masera, Muhammad Shafique
尖刺神经网络SNNS，尽管在神经形态硬件上实现时能够节能，并且与基于事件的动态视觉传感器DVS相结合，但易受安全威胁的攻击，例如对抗攻击，即添加到用于诱导错误分类的情况下的小扰动。对此，我们提出了DVS攻击，这是一个针对涉及构成SNN的输入的事件序列的秘密且有效的对抗性攻击方法。首先，我们表明DVS的噪声过滤器可以用作防止对抗攻击的防御机制。之后，我们在两种类型的DVS摄像机的存在下实施多种攻击并测试它们。实验结果表明，过滤器只能将SNNS部分抵御我们所提出的DVS攻击。使用噪声过滤器的最佳设置，我们所提出的掩码过滤器感知DASH攻击在DVS手势数据集中缩短了20多个以上的精度，并且与原始清洁帧相比，MNIST DataSet上的65多个以上。所有所提出的DVS攻击和噪声过滤器的源代码都在释放

MIDV-2020: A Comprehensive Benchmark Dataset for Identity Document Analysis
Authors Konstantin Bulatov, Ekaterina Emelianova, Daniil Tropin, Natalya Skoryukina, Yulia Chernyshova, Alexander Sheshkus, Sergey Usilin, Zuheng Ming, Jean Christophe Burie, Muhammad Muzzamil Luqman, Vladimir V. Arlazarov
身份证识别是文档分析的重要子领域，该分析涉及强大的文档检测，键入识别，文本字段识别的任务以及识别欺诈预防和文档真实性验证给定的照片，扫描或身份证框架的视频帧捕获。近年来，本主题公布了大量研究，但由于安全要求保护的主题，此类研究的主要困难是数据集的稀缺。一些身份文档数据集可用缺少文档类型，捕获条件或文档字段值的可变性的多样性。此外，已发布的数据集通常仅针对文档识别问题的子集设计，而不是用于复杂的身份文档分析。在本文中，我们介绍了一个数据集MIDV 2020，由1000个视频剪辑，2000扫描图像和1000张唯一的模拟身份证张照片组成，每个文件均有1000张纯文本值和唯一的人工生成的面部，具有丰富的注释。对于所呈现的基准标记数据集基线，可以为文档位置和标识，文本字段识别和面部检测提供此类任务。对于总共有72409个注释的图像，到发布日期，所提出的数据集是具有变量人工生成的数据的最大公开的身份证数据集，我们认为它将对文档分析和认可领域的进步证明它是非常宝贵的。数据集可用于下载

SSC: Semantic Scan Context for Large-Scale Place Recognition
Authors Lin Li, Xin Kong, Xiangrui Zhao, Tianxin Huang, Yong Liu
地点识别给出了SLAM系统，该系统能够纠正累积误差。与包含丰富纹理特征的图像不同，点云几乎是纯粹的几何信息，它基于点云具有挑战性地进行地点识别。现有的作品通常编码低级别功能，例如坐标，正常，反射强度等，作为本地或全局描述符以表示场景。此外，它们通常在匹配描述符时忽略点云之间的翻译。与大多数现有方法不同，我们探索使用高级功能，即语义，提高描述符的S表示能力。此外，当匹配描述符时，我们尝试纠正点云之间的转换以提高准确性。具体地，我们提出了一种新颖的全局描述符，语义扫描上下文，其探讨了语义信息，以更有效地表示场景。我们还呈现了一个两个步骤全局语义ICP，以获得3D构成x，y，用于对齐点云以提高匹配性能。我们在基提数据集上的实验表明，我们的方法优于具有大边距的现有技术的状态。我们的代码可供选择

Egocentric Image Captioning for Privacy-Preserved Passive Dietary Intake Monitoring
Authors Jianing Qiu, Frank P. W. Lo, Xiao Gu, Modou L. Jobarteh, Wenyan Jia, Tom Baranowski, Matilda Steiner Asiedu, Alex K. Anderson, Megan A McCrory, Edward Sazonov, Mingui Sun, Gary Frost, Benny Lo
基于相机的被动饮食进气监测能够连续捕获受试者的饮食集，记录丰富的视觉信息，例如所消耗的食物的类型和体积，以及受试者的饮食行为。然而，目前没有能够纳入这些视觉线索的方法，并提供来自被动录音的膳食摄入量的全面背景，是与他人共享食物的主题，对象正在吃什么，以及留下多少食物这个碗。另一方面，隐私是一个主要问题，而Egentric可穿戴摄像机用于捕获。在本文中，我们提出了隐私保存的安全解决方案，即用被动监测进行饮食评估的Egocentric图像标题，统一食品识别，体积估计和场景了解。通过将图像转换为丰富的文本描述，营养学家可以根据标题而不是原始图像评估个体膳食摄入，从而降低了图像隐私泄漏的风险。为此，建立了一个Egocentric饮食图像标题数据集，该数据集由在加纳的现场研究中的头部磨损和胸部磨损相机捕获的野生图像中。基于新颖的变压器的架构被设计为标题为Egentric饮食图像。已经进行了综合实验，以评估效率，并为拟议建筑设计的设计效果，以便为自我膳食图像标题设计。据我们所知，这是第一个将图像标题应用于现实生活中的饮食摄入评估的第一项工作。

Drone swarm patrolling with uneven coverage requirements
Authors Claudio Piciarelli, Gian Luca Foresti
在很多实际情况中，无人机的群体是越来越多的，例如在几乎无法访问的区域中的监视，环境监测，搜索和救援等。虽然单个无人机可以由人类运营商引导，但是一群人的部署多个无人机需要适当的算法进行自动任务面向控制。在本文中，我们专注于具有无人机安装相机传感器的可视覆盖优化。特别是，我们认为覆盖要求不均匀的具体情况，这意味着环境的不同部分具有不同的覆盖优先级。我们使用相关性图来模拟这些覆盖要求，并提出了一种深度加强学习算法来引导群体。本文首先为单个无人机定义了一个适当的学习模型，然后将其延伸到多种无人机的情况，贪婪和合作策略。实验结果表明了该方法的性能，也与标准巡逻算法进行了比较。

Towards Measuring Bias in Image Classification
Authors Nina Schaaf, Omar de Mitri, Hang Beom Kim, Alexander Windberger, Marco F. Huber
卷积神经网络CNN已成为主要计算机视觉任务的艺术状态。然而，由于复杂的潜在结构，他们的决定很难理解，这限制了它们在工业世界的某些背景下的用途。在机器学习ML任务中的常见且难以检测挑战是数据偏差。在这项工作中，我们介绍了通过归因地图揭示数据偏差的系统方法。为此目的，首先创建具有已知偏压的人工数据集并用于培训有意偏置的CNN。然后使用归因映射检查网络决策。最后，使用有意义的度量来测量与已知偏置的归属图表示的归因地图。所提出的研究表明，一些归属地图技术突出了比其他物品更好地存在偏差，并且度量可以支持偏差的识别。

Improving Task Adaptation for Cross-domain Few-shot Learning
Authors Wei Hong Li, Xialei Liu, Hakan Bilen
在本文中，我们看看跨域的问题很少的拍摄分类，旨在从以前看不见的类别和域名的分类器，其中包含一些标记的样本。我们研究了几种策略，包括各种适配器拓扑和运营，在其性能和效率方面，可以轻松地附加到具有不同元训练策略的现有方法，并在元测试阶段进行给定的任务。我们表明，附加到具有残余连接的卷积层的参数适配器表现了最佳，并且显着提高了在元数据集基准中的最新模型状态的性能，并具有较小的额外成本。我们的代码将可用

MASS: Multi-Attentional Semantic Segmentation of LiDAR Data for Dense Top-View Understanding
Authors Kunyu Peng, Juncong Fei, Kailun Yang, Alina Roitberg, Jiaming Zhang, Frank Bieder, Philipp Heidenreich, Christoph Stiller, Rainer Stiefelhagen
在所有自动化驾驶系统的核心中，能够感知周围环境，例如，通过激光序列的语义分割，这导致了由于Semantickitti和Nuscenes LidareG等大型数据集的释放而产生了显着进展。虽然最先前的工作重点关注LIDAR输入的稀疏分割，但密集的输出面罩提供具有几乎完整环境信息的自动驾驶汽车。在本文中，我们引入了专门为密集的顶视图理解驾驶场景而专门构建的多重注意力分割模型。我们的框架在柱子和占用功能上运行，包括三个基于的构建块1一个关键点驱动的图表注意，2基于LSTM的注意力从空间输入的矢量嵌入，3个基于支柱的注意力，导致360度分割面具。在Semantickitti和Nuscenes Lid索格上进行了广泛的实验，我们定量展示了我们模型的有效性，优于19.0在Semantickitti 19.0上的艺术状态，并在Nuscenes Lidarseg上达到32.7，其中质量是解决密集分割任务的第一项工作。此外，我们的多注意模型被证明对Kitti 3D数据集上验证的3D对象检测非常有效，展示其与与3D视觉相关的其他任务的高概括性。

PoliTO-IIT Submission to the EPIC-KITCHENS-100 Unsupervised Domain Adaptation Challenge for Action Recognition
Authors Chiara Plizzari, Mirco Planamente, Emanuele Alberti, Barbara Caputo
在本报告中，我们描述了我们向史诗厨房提交100个无监督域适应UDA挑战在行动认可中的技术细节。为了解决UDA设置下存在的域移位，我们首先利用了最近的域泛化DG技术，称为相对范围对齐RNA。它包括设计能够概括到任何未经看不见的域的模型，无论在训练时间访问目标数据。然后，在第二阶段，我们扩展了在未标记的目标数据上工作的方法，允许模型以无监督的方式适应目标分布。为此目的，我们包含在我们的框架现有的UDA算法中，例如颞术周度对抗性适应网络TA3N，与新的多流一致性损失共同，即时间硬规范对准T HNA和MIN熵一致性MEC。我们的提交条目PLNET在排行榜上可见，它可以实现动词的第一位置，以及名词和动作的第3个位置。

End-to-end Compression Towards Machine Vision: Network Architecture Design and Optimization
Authors Shurun Wang, Zhao Wang, Shiqi Wang, Yan Ye
视觉信号压缩的研究具有悠久的历史。通过深入学习推动，最近取得了激动人心的进展。尽管达到了更好的压缩性能，但在速率失真优化方面仍然以更好的信号质量设计到最终压缩算法。在本文中，我们表明，网络架构的设计和优化可以进一步改善压缩机器视觉。我们提出了倒置的瓶颈结构，以实现对机器视觉的结束压缩，这特别占语义信息的有效表示。此外，我们通过将分析精度纳入优化过程来追求优化的能力，并且通过以迭代方式进一步探索具有广义速率精度优化的最优性。我们使用物体检测作为展示，以结束到机器视觉的结束压缩，并且广泛的实验表明，该方案在分析性能方面实现了显着的BD速率。此外，由于启用信号电平重建，还对其他机器视觉任务的泛化能力强大的泛化能力也表明了该方案的承诺。

Orthonormal Product Quantization Network for Scalable Face Image Retrieval
Authors Ming Zhang, Xuefei Zhe, Hong Yan
最近，利用汉明距离度量的深散，对面部图像检索任务提高了越来越关注。但是，其对应于深度量化方法，用于使用字典相关距离指标学习二进制代码表示，很少被探索这项任务。本文首次尝试将产品量化集成到结束以结束面部图像检索的深度学习框架。与现有的深度量化方法不同，其中码字的数量来自数据学习，我们提出了一种使用预定义的正交向量作为码字的新颖方案，该方案旨在增强量化信息性并减少码字冗余。为了充分利用最大的鉴别信息，我们设计了一种定制的损失函数，可以为量化和原始特征的每个量化子空间中最大化身份辨别性。此外，施加基于熵的正则化术语以减少量化误差。我们在单个域和跨域检索的设置下对三个常用数据集进行实验。它表明，所提出的方法在两个设置中占据了所有比较的深度散列量化方法，具有显着优越性。所提出的码字方案始终如一地提高了常规模型性能和模型泛化能力，验证了码字分布对量化质量的重要性。此外，我们的模型的展示能力比深度散列模型表示它更适合可伸缩面部图像检索任务。

iMiGUE: An Identity-free Video Dataset for Micro-Gesture Understanding and Emotion Analysis
Authors Xin Liu, Henglin Shi, Haoyu Chen, Zitong Yu, Xiaobai Li, Guoying Zhaoz
我们为微观姿态理解和情感分析模拟介绍了一个新的DataSet为情感人工智能研究身份免费视频数据集。与现有的公共数据集不同，Imigue侧重于非语言身体手势而不使用任何身份信息，而情感分析的主要研究关注敏感的生物识别数据，如面部和语音。最重要的是，Imigue侧重于微观手势，即由内部感受驱动的无意行为，这些行为与来自其他手势数据集的普通手势的不同，这主要是故意用于说明性目的的。此外，模拟旨在评估模型通过集成所公认的微手势信息来分析情绪状态的能力，而不是仅仅识别序列中的序列中的原型或隔离。这是因为对情感AI的真正需要是以整体方式了解手势背后的情绪状态。此外，为了对该数据集的不平衡样本分布的挑战计数器，提出了一种无监督的学习方法，以捕获微型手势序列本身的潜在表示。我们系统地调查了该数据集的代表方法，并且综合实验结果揭示了造影的几个有趣的见解，例如，基于微型手势的分析可以促进情感理解。我们确认新的Imigue DataSet可以推进微观姿态和情感AI的研究。

OPT: Omni-Perception Pre-Trainer for Cross-Modal Understanding and Generation
Authors Jing Liu, Xinxin Zhu, Fei Liu, Longteng Guo, Zijia Zhao, Mingzhen Sun, Weining Wang, Jinqiao Wang, Hanqing Lu
在本文中，我们提出了通过共同建模视觉，文本和音频资源来选择跨越模态理解和生成的Omni感知前训练师。选择选择在编码器解码器框架中构建，包括三个单个模态编码器，用于为每个模态生成基于令牌的嵌入式，是一种跨模型编码器，用于编码三个模态之间的相关性，以及两个跨模型解码器以分别生成文本和图像。对于OPT的预训练，我们设计了一个多任务借口学习方案，以从三个不同的数据粒度模拟多模态资源，即令牌，模态和采样电平建模，通过该令牌，通过该模型，通过该模型来学习以对齐和翻译不同的模态。预训练任务是在打开图像的大量图像文本音频三胞胎上执行的。实验结果表明，OPT可以学习强大的图像文本音频多模态表示，并在各种交叉模态理解和生成任务方面实现了有希望的结果。

Generic Event Boundary Detection Challenge at CVPR 2021 Technical Report: Cascaded Temporal Attention Network (CASTANET)
Authors Dexiang Hong, Congcong Li, Longyin Wen, Xinyao Wang, Libo Zhang
本报告介绍了在CVPR21提交通用事件边界检测Gebd挑战的方法。在这项工作中，我们设计了一种用于GeBD的级联时间注意网络Castanet，它由三个部分，骨干网，时间注意模块和分类模块形成。具体地，信道分离的卷积网络CSN用作提取特征的骨干网络，并且临时注意力模块被设计为实施网络以专注于辨别特征。之后，级联架构用于分类模块以产生更准确的边界。此外，集合策略用于进一步提高所提出的方法的性能。所提出的方法在动力学Gebd测试组上实现了83.30 F1得分，而与基线方法相比，该集合可提高20.5 F1分数。代码可用

E-DSSR: Efficient Dynamic Surgical Scene Reconstruction with Transformer-based Stereoscopic Depth Perception
Authors Yonghao Long, Zhaoshuo Li, Chi Hang Yee, Chi Fai Ng, Russell H. Taylor, Mathias Unberath, Qi Dou
从立体声内窥镜视频重建机器人手术现场是手术数据科学中的一个重要和有希望的话题，可能支持许多应用，如外科视觉感知，机器人外科教育和术语术语的情境意识。然而，目前的方法主要限于重建静态解剖结构，假设没有组织变形，工具闭塞和遮挡和相机运动。然而，这些假设在最小的侵入机器人手术中并不总是满足。在这项工作中，我们为28 FPS运行的高度动态外科人士提供了一个有效的重建管道。具体地，我们设计了一种基于变压器的立体深度感知，用于高效的深度估计和轻量级工具分段器来处理工具闭塞。之后，提出了一种动态重建算法，其可以估计组织变形和相机运动，并为外科人的场景重建汇总随时间的信息。我们在两个数据集中评估了拟议的管道，公共汉梅金中心内窥镜视频数据集和我们在房子Davinci机器人手术数据集。结果表明，我们的方法可以恢复由外科手术工具阻碍的场景，并在实际的手术场景中实际速度处理相机的运动。

Deep auxiliary learning for visual localization using colorization task
Authors Mi Tian, Qiong Nie, Hao Shen, Xiahua Xia
视觉本地化是机器人和自主驾驶最重要的组件之一。最近，基于CNN的方法显示了鼓舞人心的结果，其提供了一种直接配方，以结束终端回归6 DOF绝对姿势。通常引入了几何或语义约束等附加信息以提高性能。特别是，后者可以将高级语义信息聚合到本地化任务中，但通常需要巨大的手动注释。为此，我们通过从自我监督的表示学习任务中引入场景特定的高级语义来提出一种用于相机定位的新颖辅助学习策略。被视为强大的代理任务，映像彩色任务被选为互补任务，该任务输出灰度照片的像素明智的彩色版本，无需额外的注释。在我们的工作中，彩色网络的功能表示通过设计嵌入到本地化网络中，以产生姿势回归的辨别功能。同时引入了注意力机制，以实现本地化性能。广泛的实验表明，我们的模型显着提高了室内和室外数据集的最新状态的本地化准确性。

Few-Shot Learning with a Strong Teacher
Authors Han Jia Ye, Lu Ming, De Chuan Zhan, Wei Lun Chao
很少有镜头学习FSL旨在使用有限标记的示例训练强大的分级器。许多现有的作品采用元学习方法，反过来采样几次拍摄任务，并优化对分类查询示例的几个镜头性能。在本文中，我们指出了这种方法的两个潜在的弱点。首先，采样的查询示例可能无法为几个镜头学习者提供足够的监督。其次，Meta学习的有效性随着镜头的增加而急剧下降，每班训练示例的数量。为了解决这些问题，我们提出了一部小说目的，即可直接培训少量射击学习者，如强大的分类器。具体而言，我们将每个采样的几个射击任务与强大的分类器相关联，这是用充足的标记示例学习的。强大的分类器具有更好的概括能力，我们使用它来监督少量射击学习者。我们提出了一种有效的方法来构建强大的分类器，使我们提出的客观易于即插即用的基于元学习的FSL方法。我们在具有许多代表性META学习方法的组合中验证了我们的方法。在包括MiniimageNet和棘手的几个基准数据集上，我们的方法导致各种任务中的显着改进。更重要的是，通过我们的方法，基于元学习的FSL方法可以始终如一地优于基于非元学习的FSL，即使在许多拍摄设置中，大大加强了他们的适用性。

One-class Steel Detector Using Patch GAN Discriminator for Visualising Anomalous Feature Map
Authors Takato Yasuno, Junichiro Fujii, Sakura Fukami
对于室内工厂的钢铁产品制造，钢缺陷检测对于质量控制很重要。例如，钢板非常细腻，必须准确检查。然而，为了保持围绕严重的户外环境的基础设施的涂料钢部分，腐蚀检测对于预测性维护至关重要。在本文中，我们提出了一种钢异常检测的通用应用，该检测包括以下四个组件。首先是一个学习者，是单位图像分类网络，以确定是否已经识别了感兴趣的区域或背景之后，在将原始大型图像划分为256平方单元图像之后。第二，提取器是基于预训练的钢发生器的鉴别器特征编码器，其具有贴片生成的对抗网络鉴别器GaN。第三个异常探测器，是一级支持向量机SVM，用于使用鉴别器特征预测异常分数。第四，指示器是用于在视觉上解释异常特征的异常概率图。此外，我们通过使用高速摄像机的13,774单位图像检查钢板缺陷，并根据照片的眼睛检查，用19,766单位图像涂上钢腐蚀的钢板缺陷。最后，我们使用条带和彩绘的钢检查数据集可视化钢的异常特征图

Attention Bottlenecks for Multimodal Fusion
Authors Arsha Nagrani, Shan Yang, Anurag Arnab, Aren Jansen, Cordelia Schmid, Chen Sun
人类通过同时处理和融合来自诸如视觉和音频等多种模态的高维输入来感知世界。机器感知模型在Stark对比中，通常是针对单峰基准的模型和优化的模式，因此来自每个模态晚融合的最终表示或预测的晚期融合仍是多模式视频分类的主要范式。相反，我们介绍了一种基于更新的基于变压器的架构，它使用融合瓶颈在多层的模态融合。与传统成对自我关注相比，我们的模型强制不同方式之间的信息，以通过少量瓶颈潜伏，要求模型整理和冷凝在每种方式中最相关的信息，只能共享必要的信息。我们发现这种策略提高了融合性能，同时降低了计算成本。我们进行彻底的消融研究，并在包括音频视觉分类基准中实现最先进的结果，包括音频，史诗厨房和vggsound。所有代码和模型都将被释放。

CLDA: Contrastive Learning for Semi-Supervised Domain Adaptation
Authors Ankit Singh
无监督域适应UDA旨在将标记的源分布与未标记的目标分布对齐，以获得域不变预测模型。然而，众所周知的UDA方法的应用在半系统监督域适应SSDA场景中没有概括，其中来自目标域的少数标记的样本可用。在本文中，我们提出了一个简单的对比学习框架，用于半监督域适应CLDA，该框架试图在SSDA中弥合标记和未标记的目标分布与源极和未标记的目标分布之间的域间差距之间的域间隙。我们建议采用类明智的对比学学习来减少原始输入图像和强大的未标记目标图像之间的域间隙和实例电平对比度，以最小化域内差异。我们已经凭经验表明，这两个模块相互补充，以实现卓越的性能。在三个众所周知的域适配基准数据集中的实验即Domainnet，Office Home和Office31展示了我们方法的有效性。 CLDA在所有上述数据集上实现最新的最新状态。

Fair Visual Recognition in Limited Data Regime using Self-Supervision and Self-Distillation
Authors Pratik Mazumder, Pravendra Singh, Vinay P. Namboodiri
深度学习模型通常学习培训数据中存在的偏差。研究人员提出了几种方法来减轻这种偏见并使模型公平。偏置缓解技术假设存在足够大量的训练示例。然而，我们观察到，如果训练数据有限，则偏置减轻方法的有效性严重降低。在本文中，我们提出了一种解决这个问题的新方法。具体而言，我们适应自我监督和自我蒸馏，以减少这种环境中偏差对模型的影响。自我监督和自蒸馏不用于偏差缓解。然而，通过这项工作，我们首次证明这些技术在偏见缓解方面非常有效。我们经验表明，我们的方法可以显着减少模型学习的偏差。此外，我们通过实验证明我们的方法与其他偏见缓解策略互补。我们的方法显着提高了它们的性能，并进一步减少了有限数据制度中的模型偏差。具体地，在L CiFar 10s偏斜数据集上，我们的方法显着降低了基线模型的偏差分数78.22，并以显着的绝对余量为8.89的精度优异。通过59.26，它还显着降低了艺术领域独立偏置的状态的偏差分数，并通过7.08的显着绝对余量来提高其性能。

Simple Training Strategies and Model Scaling for Object Detection
Authors Xianzhi Du, Barret Zoph, Wei Chih Hung, Tsung Yi Lin
物体检测系统的速度精度帕累托曲线通过更好的模型架构，培训和推理方法的组合进行了高级。在本文中，我们有条理地评估了各种这些技术，以了解现代检测系统的大多数改进。我们通过RetinAnet和RCNN探测器对Vanilla Reset FPN骨干网进行基准测试。 Vanilla探测器的精度提高了7.7，而速度速度较快。我们进一步提供了简单的缩放策略，以生成形成两个帕累托曲线的模型系列，名为RetinAnet RS和Cascade RCNN Rs。这些简单的重新定义探测器探讨了一级视网膜探测器和两级RCNN探测器之间的速度准确性折衷。我们最大的级联RCNN RS型号可实现52.9 AP，带RESET152 FPN骨架和53.6，带有SpinEnet143L主干。最后，我们显示了Reset架构，具有三个次要架构更改，优于效率，作为对象检测和实例分段系统的骨干。

Extraction of Key-frames of Endoscopic Videos by using Depth Information
Authors Pradipta Sasmal, Avinash Paul, M.K. Bhuyan, Yuji Iwahori
提出了一种基于深度学习的单手抄估计MDE技术，用于选择内窥镜视频的大多数信息帧密钥帧。在大多数情况下，息肉的地面真理深度映射不易获得，这就是我们在我们的方法中采用了转移学习方法的原因。内窥镜方式通常捕获成千上万的框架。在这种情况下，丢弃内窥镜视频的低质量和临床无关帧非常重要，而应保留最丰富的帧以进行临床诊断。在此视图中，通过利用息肉的深度信息来提出关键帧选择策略。在我们的方法中，考虑图像矩，边缘幅度和关键点，用于自适应地选择关键帧。我们所提出的方法的一个重要应用可以是借助于提取的关键帧的息肉的三维重建。此外，息肉是在提取的深度图的帮助下本地化的。

Learning to See before Learning to Act: Visual Pre-training for Manipulation
Authors Lin Yen Chen, Andy Zeng, Shuran Song, Phillip Isola, Tsung Yi Lin
有视觉前导者尤其如此。检测对象的能力促进学习以执行基于视觉的操纵。拾取对象我们在转移学习框架下研究这个问题，其中模型首先在被动视觉任务上培训，并适合执行活动操作任务。我们发现关于愿景任务的预培训显着提高了学习操纵物体的泛化和采样效率。但是，实现这些收益需要仔细选择模型的哪些部分转移。我们的关键洞察力是标准视觉模型的输出与常用于操纵中的可供性地图高度相关。因此，我们探讨从视觉网络直接转移模型参数到可提供的预测网络，并显示这可能导致成功的零拍摄适应，其中机器人可以拾取具有零机器人体验的某些对象。只需少量的机器人体验，我们就可以进一步微调带来的能力模型以获得更好的结果。只需10分钟的吸入体验或1小时的抓取体验，我们的方法在拾取新物品时实现了80个成功率。

Stabilizing Deep Q-Learning with ConvNets and Vision Transformers under Data Augmentation
Authors Nicklas Hansen, Hao Su, Xiaolong Wang
虽然由加固学习RL接受训练的代理商可以直接解决视觉观测的日益挑战性的任务，但概括到新颖环境的学习技能仍然非常具有挑战性。大量使用数据增强是一种有助于改善RL的概括的有希望的技术，但通常发现它可以降低样品效率，甚至可以导致发散。在本文中，我们调查在常见的策略RL算法中使用数据增强时的不稳定原因。我们识别两个问题，均植根于高方差Q目标。基于我们的研究结果，我们提出了一种简单但有效的技术，可在增强下稳定这类算法。我们在基于深度控制套件的基准系列以及机器人操纵任务中使用两种基准系列对基于图像的RL进行广泛的实证评估。我们的方法大大提高了增强下呼应集的稳定性和样本效率，并实现了基于图像的RL的现有方法的竞争力的普遍性结果。我们进一步表明，我们的方法与基于VITV的架构的RL缩放，并且数据增强在此设置中可能尤为重要。

Generalization and Robustness Implications in Object-Centric Learning
Authors Andrea Dittadi, Samuele Papa, Michele De Vita, Bernhard Sch lkopf, Ole Winther, Francesco Locatello
目标以中心表示学习背后的想法是，自然场景可以更好地建模为对象的组成及其关系，而不是分布式表示。可以将这种感应偏压注入神经网络中，以在具有多个对象的场景中潜在地提高下游任务的系统泛化和学习效率。在本文中，我们在五个常见的多目标数据集中培训艺术无人监督模型的状态，并评估分段精度和下游对象属性预测。此外，我们通过调查单个物体的设置来研究系统的泛化和鲁棒性，其中单个物体超出分发，例如，具有所需的颜色，纹理和形状或形成场景的全局属性，例如通过闭塞，裁剪或增加数量来改变对象。从我们的实验研究来看，我们发现对象中心表示通常有用于下游任务和在数据分布中转移的强大，特别是如果移位会影响单个对象。

Improving Human Motion Prediction Through Continual Learning
Authors Mohammad Samin Yasar, Tariq Iqbal
人体运动预测是用于实现更紧密的人体机器人协作的重要组成部分。准确预测人类运动的任务是非微不足道的。由于人类的尺寸和由于个体运动的特质，因此由于人类的尺寸和运动水平而导致的人类运动的可变性，这两者都是混合的。这些变量使得获得学习算法的挑战，以获得对人类运动的多样性时空模式鲁棒的一般表示。在这项工作中，我们提出了一种模块化序列学习方法，允许结束结束训练，同时也具有微调的灵活性。我们的方法依赖于培训样本的多样性首先学习强大的表示，然后可以在不断的学习设置中进行微调，以预测新对象的运动。我们通过比较其对现有领域的状态的绩效来评估所提出的方法。结果表明，我们的方法在所有评估的时间视野中使用少量数据来优于所有评估的时间视野。我们方法的改进性能开辟了使用不断学习的个性化和可靠的运动预测的可能性。

SinGAN-Seg: Synthetic Training Data Generation for Medical Image Segmentation
Authors Vajira Thambawita, Pegah Salehi, Sajad Amouei Sheshkal, Steven A. Hicks, Hugo L.Hammer, Sravanthi Parasa, Thomas de Lange, P l Halvorsen, Michael A. Riegler
处理医疗数据以查找异常是耗时和昂贵的任务，需要从医学专家努力。因此，AI已成为自动处理医疗数据的流行工具，作为医生的支持工具。 AI工具高度依赖于培训模型的数据。然而，有几个限制可以访问大量医疗数据，以培训医疗领域的机器学习算法，例如，由于隐私问题和昂贵的耗时，耗时的医疗数据注释过程。为了解决这个问题，在本文中，我们提出了一种名为SONDAN SEG的新型合成数据生成管道，以产生具有相应注释的地面真相掩模的合成医疗数据。我们表明这些合成数据生成管道可以用作绕过隐私问题的替代方案，并作为产生具有相应地面真理掩模的人工分割数据集的替代方法，以避免繁琐的医疗数据注释过程。作为概念证明，我们使用了一个开放的息肉分段数据集。通过使用来自SINGAN SEG管道生成的真实点息分段数据集和相应的合成数据集来训练UNET，我们表明合成数据可以在真实分割数据集足够大时对实际数据实现非常紧密的性能。此外，我们表明，当训练数据集非常小时，从Singan SEG管道产生的合成数据提高了分段算法的性能。由于我们的SINGAN SEG管道适用于任何医疗数据集，因此该管道可以与任何其他分段数据集一起使用。

Deep Hierarchical Super-Resolution for Scientific Data Reduction and Visualization
Authors Skylar W. Wurster, Han Wei Shen, Hanqi Guo, Thomas Peterka, Mukund Raj, Jiayi Xu
我们在Octree数据表示上使用神经网络提供分层超分辨率SR的方法。我们训练神经网络的层次结构，每个层次结构都能够在两个细节水平之间的每个空间维度上进行2倍，并且在串联中使用这些网络以促进大规模因子超级分辨率，与培训的网络的数量缩放。我们利用这些网络在分层超分辨率算法中，使多分辨率数据升高到均匀的高分辨率，而不在Octree节点边界上引入缝伪像。通过将输入数据动态缩小到基于OctREE的数据结构来评估该算法在数据减少框架中的应用，以表示压缩额外的存储器之前的多分辨率数据。我们展示了我们的方法避免了对多分辨率数据格式共同的缝伪像，并且展示了神经网络超分辨率辅助数据如何减少可以比单独的压缩机更好地保持全局功能。

Crowdsourcing Evaluation of Saliency-based XAI Methods
Authors Xiaotian Lu, Arseny Tolmachev, Tatsuya Yamamoto, Koh Takeuchi, Seiji Okajima, Tomoyoshi Takebayashi, Koji Maruhashi, Hisashi Kashima
了解深度神经网络的预测背后的原因对于在许多重要应用中获得人类信任至关重要，这反映在近年来Ai Xai中的扩展性需求上升。显着的基于特征归因方法，其突出显示分类器的决策的图像的重要部分通常用作XAI方法，特别是在计算机视野领域。为了定量比较各种显着性的XAI方法，已经提出了几种用于自动评估方案的方法，因此无法保证这种自动化评估度量正确评估可解释性，并且通过自动评估方案的高评级并不一定意味着高分对人类的解释性。在本研究中，除了自动评估中，我们提出了一种利用众包评估XAI方法的基于基于人的评估方案。我们的方法受到人类计算游戏的启发，窥视繁荣，并通过利用人群的力量有效地比较不同的XAI方法。我们评估了基于自动化和人群的评估方案的两个数据集上各种XAI方法的显着性图。我们的实验表明，基于人群的评估方案的结果与自动化评估计划的结果不同。此外，我们认为基于人群的评估结果作为地面真理，并提供了比较不同自动化评估计划的定量性能措施。我们还讨论了人群工人对结果的影响，并表明人群工人的不同能力不会影响结果。

Supervised Segmentation with Domain Adaptation for Small Sampled Orbital CT Images
Authors Sungho Suh, Sojeong Cheon, Wonseo Choi, Yeon Woong Chung, Won Kyung Cho, Ji Sun Paik, Sung Eun Kim, Dong Jin Chang, Yong Oh Lee
深神经网络DNN已广泛用于医学图像分析。然而，缺乏进入A到大规模的注释数据集造成巨大挑战，特别是在稀有疾病的情况下，或研究会的新域名。从相对大的数据集转移预训练的功能是一个相当大的解决方案。在本文中，当仅给出小型采样的CT图像时，我们使用域适应的域适应来探索监督分割。即使是肺部图像数据库联盟图像集合LIDC IDRI也是轨道CT的跨域，但是所提出的域适应方法改善了在公共视神经数据集和临床轨道肿瘤数据集中的分割的关注U网的性能。代码和数据集可用

Lossless Coding of Point Cloud Geometry using a Deep Generative Model
Authors Dat Thanh Nguyen, Maurice Quach, Giuseppe Valenzise, Pierre Duhamel
本文提出了一种无损点云电脑几何压缩方法，它使用神经网络来估计体素占用的概率分布。首先，要考虑到PC稀疏性，我们的方法将点云设置为多个Voxel块大小。通过OctREE发出此分区。其次，我们采用了一个深度自动回归生成模型来估计每个体素的占用概率给出先前编码的那些体素。然后，我们使用基于上下文的算术编码器使用估计的概率来为块进行有效地拨打块。我们的上下文具有可变大小，可以扩展到当前块以了解更准确的概率。我们还考虑使用数据增强技术来提高学习概率模型的泛化能力，特别是在存在噪声和更低的密度点云中。实验评估，在来自四种不同数据集的各种点云上进行的，表明，与现有技术MPEG编解码器的状态相比，我们的方法明显减少了多达30次无损编码的速率。

GlyphCRM: Bidirectional Encoder Representation for Chinese Character with its Glyph
Authors Yunxin Li, Yu Zhao, Baotian Hu, Qingcai Chen, Yang Xiang, Xiaolong Wang, Yuxin Ding, Lin Ma
以前的作品表明，汉字的雕文包含丰富的语义信息，有可能增强汉字的代表。利用字体特征的典型方法是将它们结合到字符嵌入空间中。灵感来自以前的方法，我们创新地提出了一个名为Glyphcrm的中国前训练的代表模型，该模型是基于顺序字符图像的基于ID的字符嵌入方法。我们将每个字符呈现为二进制灰度图像，并为其设计两个通道位置。正式，我们首先设计一个两层残差卷积神经网络，即挂钩生成汉字的初始字形表示，随后采用多个双向编码器变压器块作为上层结构以捕获上下文敏感信息。同时，通过跳过连接方法，我们通过跳过连接方法馈送从每个层中提取的字形特征到底层变压器块中，以充分利用汉字的字形特征。随着阳台模块可以获得足够的字形表示任何汉字，可以有效地解决了从词汇问题的长期。广泛的实验结果表明，凝面基本上优于9个精细调整任务的最先前的BERT基础状态，并且它对专业领域和低资源任务具有强大的可转换性和泛化。我们希望这项工作可能会引发进一步的研究，超越了中国文本良好代表的领域。

Interviewer-Candidate Role Play: Towards Developing Real-World NLP Systems
Authors Neeraj Varshney, Swaroop Mishra, Chitta Baral
标准的NLP任务不包含几个常见的现实世界场景，如寻求关于问题的澄清，利用线索，弃权，以避免不正确的答案等。任务制定的这种差异阻碍了在现实世界中的NLP系统中的采用。在这项工作中，我们迈出了弥补这个差距的一步，并提出了一种多阶段任务，模拟了典型的人类提问者响应者互动，例如面试。具体地，该系统在各个阶段提供了质量简化，知识陈述，示例等，以改善其在不够自信时的预测。我们在自然语言推理设置中实例化了拟议的任务，其中系统在域中的域中进行了评估，并从域的输入中进行了评估。我们进行全面的实验，并发现我们的任务的多阶段制定能够在第1期，第3阶段，第3阶段，54.88阶段的阶段，1.91中的展示性能改善和72.02阶段在标准的无规模预测中。但是，我们的任务对NLP研究人员来说，对NLP研究人员来说，在每个阶段进一步提高表现的重大挑战。

Explainable Diabetic Retinopathy Detection and Retinal Image Generation
Authors Yuhao Niu, Lin Gu, Yitian Zhao, Feng Lu
虽然深入学习在分类某些疾病的标签和严重程度方面表现出成功的表现，但大多数人都对如何进行预测的少数解释。灵感来自KOCH S假设，基于证据的药物EBM识别病原体，我们建议利用深度学习应用在医学诊断中的可解释性。通过确定和分离糖尿病视网膜病变DR检测器的神经元激活模式依赖于做出决策，我们证明了分离的神经元激活与病变之间的直接关系进行病理学解释。具体而言，我们首先使用DR检测器的活化神经元定义新的病理描述符来编码病变的空间和外观信息。然后，为了可视化描述符中编码的症状，我们提出了一种新网络来合成医学卓越视网膜图像的新网络。通过操纵这些描述符，甚至可以任意控制所生成的病变的位置，数量和类别。我们还表明，我们的合成图像携带与糖尿病视网膜病变诊断直接相关的症状。我们所生成的图像既通过先前的方法定性和定量地优于何种方法。此外，与需要数小时的现有方法相比，我们的第二级速度赋予了有效的数据增强解决方案。

DivergentNets: Medical Image Segmentation by Network Ensemble
Authors Vajira Thambawita, Steven A. Hicks, P l Halvorsen, Michael A. Riegler
冒号息肉的检测已成为机器学习和胃肠内窥镜检查的交叉领域的趋势主题。重点主要是每帧分类。最近，息肉分割在医学界得到了关注。分割具有比每帧分类或对象检测更准确的优点，因为它可以更详细地显示受影响的区域。对于我们对EndoCV 2021分割挑战的贡献，我们提出了两个独立的方法。首先，一个名为Triunet的分割模型由三个单独的UNET模型组成。其次，我们将TriUnet与众所周知的分割模型，即UNET，FPN，DEEPLABV3和DEEPLABV3的集合组合成一个名为DiverrentNETNET的模型，以产生更广泛的医学图像分割掩模。此外，我们提出了一种修改的骰子损失，在执行多键分段时，仅计算单个类的丢失，强制模型关注最重要的东西。总体而言，拟议的方法在挑战中实现了每个相应的各个圆形的最佳平均分数，而Triunet是圆形I和不同导网演中的胜利模型，是EndoCV 2021的分割概括挑战的圆形II中的获胜模型。我们的方法实施在GitHub上公开提供。

A Survey on Graph-Based Deep Learning for Computational Histopathology
Authors David Ahmedt Aristizabal, Mohammad Ali Armin, Simon Denman, Clinton Fookes, Lars Petersson
随着代表学习的显着成功进行预测问题，我们目睹了利用机器学习和深度学习的快速扩张，以分析数字病理和活检图像贴片。然而，在尝试捕获全局上下文信息时，传统学习通过卷积神经网络的修补程序明智特征限制了模型。构成组织学实体的表型和拓扑分布在组织诊断中发挥着关键作用。因此，图数据表示和深度学习引起了对编码组织表示的重要关注，并捕获帧内和实体间级别相互作用。在本次综述中，我们提供了基于图的深度学习的概念接地，并讨论其当前的肿瘤定位和分类，肿瘤侵入和分期，图像检索和生存预测的成功。我们以通过由输入图像的图表表示组织的系统方式提供这些方法的概述，包括整个滑动图像和组织微阵列。我们还概述了现有技术的局限性，并提出了该领域的潜在未来进展。

AdaXpert: Adapting Neural Architecture for Growing Data
Authors Shuaicheng Niu, Jiaxiang Wu, Guanghui Xu, Yifan Zhang, Yong Guo, Peilin Zhao, Peng Wang, Mingkui Tan
在现实世界应用中，数据通常以不断增长的方式出现，其中数据量和类的数量可能会动态增加。这将为越来越多的数据量或课程数量来学习来提出危急挑战，必须立即调整神经模型能力以获得有希望的性能。现有方法忽略数据的不断增长的性质，或者寻求独立搜索给定数据集的最佳架构，因此无法迅速调整改变数据的架构。为了解决这个问题，我们提出了一种神经结构适应方法，即适应专家Adaxpert，以有效地调整越来越多的数据上的先前体系结构。具体地，我们介绍了一种体系结构调整器，基于先前的架构和当前数据分布之间的不同程度来为每个数据快照生成合适的架构。此外，我们提出了一种适应条件来确定调整的必要性，从而避免不必要和耗时的调整。对两个增长情景的广泛实验，增加数据量和类数证明了该方法的有效性。

Feasibility of Haralick's Texture Features for the Classification of Chromogenic In-situ Hybridization Images
Authors Stoyan Pavlov, Galina Momcheva, Pavlina Burlakova, Simeon Atanasov, Dimo Stoyanov, Martin Ivanov, Anton Tonchev
本文介绍了用于二阶纹理特征的有用性的概念证明，用于高通量成像实验中的发色法的定性分析和分类。挑战是目前，这些图像中基因表达分级的黄金标准是专家评估。研究团队的想法是在分析这些图像中使用不同的方法，该图像将用于基因表达中的结构细分和功能分析。本文提出了这种透视理念，以选择将用于分类的许多纹理特征。在我们的实验中，在无监督的分类程序中探讨了图像样本瓷砖的自然分组。该特征减少到具有模糊C表示聚类的两个维度。该实验的总体结论是，Haralick特征是对原位杂交图像数据的分类和分析的可行选择。来自注释的观点课程中，主要成分分析方法略微更容易理解。

FedMix: Approximation of Mixup under Mean Augmented Federated Learning
Authors Tehrim Yoon, Sumin Shin, Sung Ju Hwang, Eunho Yang
联合学习FL允许边缘设备集体学习模型而不直接共享每个设备内的数据，从而保留隐私并消除全局存储数据的需要。虽然在独立和相同分布的IID本地数据的假设下存在有前途的结果，但最新的算法的当前状态遭受性能下降，因为跨客户端的本地数据的异质性增加。要解决此问题，我们提出了一个简单的框架，意味着增强联合学习MAFL，客户端发送和接收平均本地数据，但符合目标应用程序的隐私要求。在我们的框架下，我们提出了一个名为FEDMIX的新的增强算法，该算法由一个现象但简单的数据增强方法，混合来启发，但不需要在设备之间直接共享本地原始数据。与传统算法相比，我们的方法在高度非IID联合设置下，在FL的标准基准数据集中显示了大大提高了性能。

Scalable Certified Segmentation via Randomized Smoothing
Authors Marc Fischer, Maximilian Baader, Martin Vechev
我们提出了一种基于随机平滑的图像和点云分割的新认证方法。该方法利用新颖的可扩展算法进行预测和认证，以确保统计保证所需的多种测试。我们方法的关键是依赖于建立的多个测试校正机制以及避免分类单个像素或点的能力，同时仍然稳健地分割整体输入。我们对合成数据和具有挑战性的数据集的实验评估，例如Pascal Context，CityOcapes和ShapEnet，表明我们的算法可以在第一次实现竞争的准确性和认证保证现实世界细分任务。我们提供了一个实施

Circuit Complexity of Visual Search
Authors Kei Uchizawa, Haruki Abe
我们研究了特征的计算硬度，并通过电路复杂性的镜头进行了结合搜索。让x x 1，...，x n resp。，y y 1，...，y n是布尔变量，其中每个都是如果且才有一个神经元在放置的神经元检测到一个特征resp。，另一个特征。然后我们简单地制定了特征和结合搜索作为布尔函数RM FTR N X BigVee I 1 N x I和RM Con Con Con Con Con Con Con Con Con Con Con，y Bigvee I 1 n x i楔入y i。我们采用阈值电路或离散化电路，例如Sigmoid电路或Relu电路，具有离散化作为我们的神经网络模型，并考虑以下四个计算资源I神经元大小的数量，II的级别深度，III输出非零值能量的有源神经元数，和IV突触重量分辨率重量。

Multi-modal Graph Learning for Disease Prediction
Authors Shuai Zheng, Zhenfeng Zhu, Zhizhe Liu, Zhenyu Guo, Yang Liu, Yao Zhao
受益于图形的强大的表现能力，基于图的方法在各种生物医学应用中取得了令人印象深刻的性能。大多数现有方法倾向于根据元特征手动定义样本之间的邻接矩阵，然后通过图表表示GRL获得用于下游任务的节点嵌入。然而，这些方法并不容易推广到看不见的样本。同时，方式也忽略了模态之间的复杂相关性。结果，这些因素不可避免地产生了提供有关患者条件的有效信息的不足，以获得可靠的诊断。在本文中，我们建议结束结束多峰图学习框架MMGL用于疾病预测。为了有效利用与疾病相关的多模态的丰富信息，建议通过利用模式之间的相关性和互补性来集成每个模态的特征。此外，不是用现有方法手动定义邻接矩阵，而是可以通过一种自适应图学习的新方法捕获潜在图形结构。它可以与预测模型共同优化，从而揭示样品之间的内在连接。与以前的转模型方法不同，我们的模型也适用于那些看不见数据的归纳学习的场景。然后精心设计和提出了一系列关于两种疾病预测问题的实验，表明MMGL获得更有利的性能。此外，我们还可视化和分析了学习的图形结构，为实际医疗应用中医生提供更可靠的决策支持和疾病研究的灵感。

Unsupervised Model Drift Estimation with Batch Normalization Statistics for Dataset Shift Detection and Model Selection
Authors Wonju Lee, Seok Yong Byun, Jooeun Kim, Minje Park, Kirill Chechil
虽然许多真实的世界数据流暗示他们经常以非间断的方式变化，但大多数深度学习方法都优化了在训练数据上的神经网络，这导致数据集移位发生时的严重性能下降。然而，不可能通过人类注释或检查新流数据，因此希望以无监督的方式测量推理时间的模型漂移。在本文中，我们通过在未标记的测试数据上利用批量归一化层的统计来提出一种模型漂移估计的新方法。要解决流输入数据的可能采样错误，我们将低秩近似为每个代表层。我们不仅显示了我们的方法的有效性，不仅是数据集移位检测，而且在模型选择时在模型动物园或训练轨迹中以无人监督的方式进行模型选择。我们进一步通过比较不同网络架构之间的模型漂移分数来展示我们方法的一致性。

Revisiting Knowledge Distillation: An Inheritance and Exploration Framework
Authors Zhen Huang, Xu Shen, Jun Xing, Tongliang Liu, Xinmei Tian, Houqiang Li, Bing Deng, Jianqiang Huang, Xian Sheng Hua
知识蒸馏KD是一种流行的技术，用于将知识从教师模型或集合转移到学生模型。它的成功通常归因于有关教师模型和学生模型的类分布或中间特征表示之间的相似性一致性的特权信息。但是，直接推动学生模型以模拟教师模型的概率特征，在很大程度上限制学生模型学习未被发现的知识功能。在本文中，我们提出了一种新颖的继承和探索知识蒸馏框架，即KD，其中学生模型被分成了两部分继承和探索。继承部分具有相似性损失，以将教师模型从教师模型转移到学生模型的现有学习知识，同时鼓励勘探部分学习与继承的概念不同的表示。我们的IE KD框架是通用的，可以很容易地与现有的蒸馏或相互学习方法进行培训，用于培训深神经网络。广泛的实验表明，这两部分可以共同推动学生模型来了解更多多样化和有效的表现，我们的IE KD可以是改进学生网络以实现SOTA性能的一般技术。此外，通过将IE KD应用于两个网络的训练，两者的性能都可以改善w.r.t.深度相互学习。 IE KD的代码和型号将公开可用

Sanity Checks for Lottery Tickets: Does Your Winning Ticket Really Win the Jackpot?
Authors Xiaolong Ma, Geng Yuan, Xuan Shen, Tianlong Chen, Xuxi Chen, Xiaohan Chen, Ning Liu, Minghai Qin, Sijia Liu, Zhangyang Wang, Yanzhi Wang
在实验设置和标准上识别文学中获奖票的标准，已经存在长期存在的争议和不一致。要调和等，我们重新审视彩票假设的定义，具有全面且更严格的条件。在我们的新定义下，我们展示了具体的证据，以澄清在主要DNN架构和/或应用程序中是否存在获奖票证。通过广泛的实验，我们对获胜票和各种实验因素之间的相关性进行定量分析，并经验研究了我们观察的模式。我们发现，诸如学习率和训练时期的关键培训，以及诸如能力和剩余连接之类的架构特征，都与是否可以识别获奖票据。根据我们的分析，我们总结了关于具体架构特征的参数设置指导，我们希望促进彩票票假设主题的研究进展。

Automated Detection and Diagnosis of Diabetic Retinopathy: A Comprehensive Survey
Authors Vasudevan Lakshminarayanan, Hoda Kherdfallah, Arya Sarkar, J. Jothi Balaji
糖尿病视网膜病变博士是世界视力丧失的主要原因。在过去的几个糖尿病视网膜病变中是世界上视力丧失的主要原因。在过去的几年里，基于人工智能AI的方法已经过去用于检测和博士。早期检测使得能够适当的处理，从而防止视觉损失，两个眼底和光学相干断层扫描OCT图像用于图像视网膜。通过深度学习机器学习验证，可以从图像中提取特征并检测DR的存在。实施多种策略来检测和使用分类，分割和混合技术的博士的存在。本综述涵盖了在五年跨度2016年2021年在公开文学中发表的博士的AI博士的文献。此外，报告了可用DR数据集的综合列表。聘用了PICO P患者，I干预，C控制O结果和优先报告项目，用于系统审查和META分析PRISMA 2009 2009检察策略。我们总结了总共114篇符合审查范围的公布文章。此外，还提供了43个主要数据集的列表。

Dep-$L_0$: Improving $L_0$-based Network Sparsification via Dependency Modeling
Authors Yang Li, Shihao Ji
具有L 0正则化的深度神经网络是网络修剪或稀疏的突出方法之一。该方法通过促进重量变得完全为零，在训练期间修剪网络。然而，近戈尔等人的工作。揭示了虽然这种方法在较小的数据集上产生高压缩速率，但它在大规模学习任务中执行不一致，例如在想象中的Resnet50。我们通过变分推理的镜头分析这种现象，并发现它可能是由于二进制栅极的独立建模，平均场近似，贝叶斯统计中已知其由于原油近似而具有差的性能。为了缓解这种缺陷，我们提出了二进制栅极的依赖性建模，其可以用作多层的Perceptron MLP有效地建模。我们通过依赖性启用L 0正则化术语算法DEAD L 0。在CIFAR10，CIFAR100和ImageNet上进行广泛的实验，具有VGG16，Resnet50，Resnet56，Reset56显示了我们的DEP L 0优于Louzos等人的原始L 0 HC算法。通过重大边际，特别是在想象中。与技术的状态相比，我们的依赖性建模使L 0基于L 0的稀疏在大规模学习任务中再次非常竞争。我们的源代码可用

Chinese Abs From Machine Translation

Papers from arxiv.org

更多精彩请移步主页

pic from pexels.com