【AI视野·今日CV 计算机视觉论文速览第198期】Fri, 14 May 2021_vsr: a unified framework for documentlayout analys-CSDN博客

本文链接：https://blog.csdn.net/u014636245/article/details/116899389

AI视野·今日CS.CV 计算机视觉论文速览
Fri, 14 May 2021
Totally 57 papers
👉上期速览✈更多精彩请移步主页

在这里插入图片描述

Daily Computer Vision Papers

Dynamic View Synthesis from Dynamic Monocular Video
Authors Chen Gao, Ayush Saraf, Johannes Kopf, Jia Bin Huang
我们介绍了一种在任意视点处生成新颖视图的算法，以及给定动态场景的单目一象视频的任何输入时间步长。我们的工作基于神经隐式表示的最近进步，并利用连续和可微分的功能来建模时间变化结构和场景的外观。我们共同培训时间不变的静态NERF和时间变化动态NERF，并学习如何以无监督的方式融合结果。然而，从单个视频中学习这种隐式功能非常不含无限许多符合输入视频的解决方案。为了解决歧义，我们引入了正规化损失，以鼓励更具身体合理的解决方案。我们从随意捕获的视频中显示了广泛的有动态视图综合的定量和定性结果。

Editing Conditional Radiance Fields
Authors Steven Liu, Xiuming Zhang, Zhoutong Zhang, Richard Zhang, Jun Yan Zhu, Bryan Russell
神经辐射场NERF是支持高质量视图合成的场景模型，每个场景优化。在本文中，我们探讨了用户编辑的类别级别Nerf，也称为在形状类别上培训的条件辐射字段。具体地，我们介绍一种用于将粗略2D用户划痕传播到3D空间的方法，以修改局部区域的颜色或形状。首先，我们提出了一种包含新的模块化网络组件的条件辐射字段，包括跨对象实例共享的形状分支。观察相同类别的多个实例，我们的模型学习基础部分语义而没有任何监督，从而允许粗略的2D用户涂覆到整个3D区域的涂抹术。接下来，我们提出了一种针对特定网络组件的混合网络更新策略，其平衡效率和准确性。在用户交互期间，我们制定了满足用户的约束并保留原始对象结构的优化问题。我们在三种形状数据集中展示了我们在各种编辑任务上的方法，并表明它优于先前的神经编辑方法。最后，我们编辑真实照片的外观和形状，并显示编辑传播到外推的新颖视图。

DiscoBox: Weakly Supervised Instance Segmentation and Semantic Correspondence from Box Supervision
Authors Shiyi Lan, Zhiding Yu, Christopher Choy, Subhashree Radhakrishnan, Guilin Liu, Yuke Zhu, Larry S. Davis, Anima Anandkumar
我们介绍了Discobox，这是一个新颖的框架，使用边界框监督联合学习实例分段和语义对应。具体地，我们提出了一种自组合框架，除了边界盒监督外，还通过结构化教师共同指导了实例分割和语义对应。老师是一种结构化能量模型，其包含配对电位和横向图像电位，以模拟盒子内和跨越盒子的成对像素关系。最小化教师能量同时产生帧内对象之间的精细对象掩码和密集的对应，这被视为伪标签以监督任务网络并提供正负对应对进行密集的受动性学习。我们展示了一个共生关系，两项任务彼此相互受益。我们的最佳型号达到了Coco实例分割的37.9 AP，超越了先前的弱势监督方法，对监督方法具有竞争力。我们还获得了帕斯卡VOC12和PF Pascal的艺术态度弱监督结果，实际推断。

Contrastive Learning of Image Representations with Cross-Video Cycle-Consistency
Authors Haiping Wu, Xiaolong Wang
最近的作品通过了大幅度的自我监督代表学习的表现。这些方法中的核心是图像中的不变学习。一个图像实例的两个不同的变换被认为是正样本对，其中各种任务旨在通过比较该对来学习不变的表示。类似地，对于视频数据，来自相同视频的帧的表示训练以比来自其他视频的帧更近于帧，即视频不变性。但是，跨视频关系勉强探讨了视觉表现学习。与视频不变性不同，跨视频关系的地面真理标签通常不可用，没有人类的劳动力。在本文中，我们提出了一种新的对比学学习方法，通过使用循环一致性来探讨一般图像表示学习的跨视频关系。这允许在不同的视频实例上收集积极的样本对，我们假设会导致更高的级别语义。我们通过将图像表示转移到多个下游任务，包括可视对象跟踪，图像分类和动作识别，验证我们的方法。我们显着改善了最先进的对比学习方法。项目页面可用

Self-Supervised Collision Handling via Generative 3D Garment Models for Virtual Try-On
Authors Igor Santesteban, Nils Thuerey, Miguel A. Otaduy, Dan Casas
我们为3D服装变形提出了一种新的生成模型，使我们能够首次学习数据驱动方法，以便有效地解决服装身体碰撞。与需要不希望的后处理步骤来修复服装身体在测试时间的衣服互补的现有方法相反，我们的方法直接输出不与底层碰撞的3D服装配置。我们的成功的关键是一种新的规范空间，用于去除由新的扩散人体模型已经捕获的姿势和形状变形，其将诸如剥皮重量和爆炸形的体表特性推断到任何3D点。我们利用这一表示来训练一个新的自我监督碰撞术语的生成模式，学会可靠地解决服装身体的渗透性。我们广泛地评估并与最近提出的数据驱动方法进行了评估和比较我们的结果，并表明我们的方法是首先成功地在不妥协的现实和细节的情况下解决服装体的衣服身体接触。

3D Spatial Recognition without Spatially Labeled 3D
Authors Zhongzheng Ren, Ishan Misra, Alexander G. Schwing, Rohit Girdhar
我们介绍WYPR，一个弱云识别的弱势框架，只需要场景级别类标签作为监督。 WYPR共同解决三个核心3D识别任务点级语义分割，3D提案生成和3D对象检测，通过自我和跨任务一致性损耗耦合它们的预测。我们表明，与标准多实例学习目标结合，WYPR可以在培训时间内无法访问点云数据中的段对象。我们展示了使用SCANNET和S3DIS数据集的功效，优于弱势监督的细分前方的现有技术，超过6 miou。此外，我们在两个数据集中设置了第一个用于弱监督3D对象检测的基准，其中Wypr优于标准方法，并为未来的工作建立强基线。

High-Resolution Complex Scene Synthesis with Transformers
Authors Manuel Jahn, Robin Rombach, Bj rn Ommer
通过深度生成模型使用粗粒布局可控制复杂场景图像的合成，最近获得了普及。然而，目前方法的结果仍然缺乏其高分辨率合成的承诺。我们假设这主要是由于这些方法的高度工程性质，这些方法通常依赖于辅助损耗和诸如掩模发生器的中间步骤。在本说明书中，我们提出了一种正交的方法，即生成模型基于纯粹的似然训练而无需额外的目标。为此，我们首先优化具有对抗性训练的强大压缩模型，该培训学会通过离散潜瓶颈重建其输入，从而有效地剥离诸如纹理的高频细节的潜在表示。随后，我们训练自回归变压器模型，以了解在布局的令牌化版本上调节的离散图像表示的分布。我们的实验表明，所得系统能够合成与给定布局一致的高质量图像。特别是，我们通过高达19和53改善Coco Stuff和Visual Genome上的最先进的FID得分的状态，并在Coco和打开图像上展示了高达512×512Px的图像的合成。

Episodic Transformer for Vision-and-Language Navigation
Authors Alexander Pashevich, Cordelia Schmid, Chen Sun
自然语言指令在动态环境中定义的互动和导航对神经代理产生了重大挑战。本文侧重于解决处理长期序列的两个挑战，并了解复杂的人类指示。我们提出了集体变压器E.T. ，一种编码语言输入和视觉观测和动作的完整剧集历史的多模式变压器。为了改善培训，我们利用合成说明作为中间代表，使得从自然语言指令的变化中解脱地解环境的视觉外观。我们展示使用变压器编码历史来解决组建任务至关重要，并且具有合成指令的预制和联合训练进一步提高了性能。我们的方法在挑战的阿尔弗雷德基准上设立了新的最新状态，实现了38.4和8.5任务成功率，即看见和看不见的试验分裂。

DeepQAMVS: Query-Aware Hierarchical Pointer Networks for Multi-Video Summarization
Authors Safa Messaoud, Ismini Lourentzou, Assma Boughoula, Mona Zehni, Zhizhen Zhao, Chengxiang Zhai, Alexander G. Schwing
最近的Web视频共享平台增长增加了对可以有效浏览，检索和总结视频内容的系统的需求。查询意识的多视频摘要是一种有希望的技术，可满足这种需求。在这项工作中，我们介绍了一个新的查询意识分层指针网络，用于多视频摘要，被称为DeepQamvs，共同优化了多个标准1简洁，2表示重要查询相关事件和3个时间声音的表现力。我们设计分解三个分布的分层注意模型，每个分布，每个分布来自不同的模态，然后是一个指针网络，其选择帧以包括在摘要中。 DeepQamvs受到钢筋学习的培训，包括追求代表性，多样性，查询适应性和时间一致性的奖励。我们在MVS1K数据集中实现最先进的结果，随着输入视频帧的数量线性地缩放了推理时间。

Using Self-Supervised Co-Training to Improve Facial Representation
Authors Mahdi Pourmirzaei, Farzaneh Esmaili, Gholam Ali Montazer
在本文中，首先，在不同的增强水平下测试了ImageNet对面部表情识别Fer的影响。从划痕训练的结果可以看出，与以更强的增强级别的想象类型微调相比，从头划痕训练可以达到更好的性能。之后，提出了一个框架，用于标准监督学习SL，称为混合学习HL，其中在多任务学习MTL方式中使用了用SL的自我监督CO训练。利用自我监督的学习SSL可以从来自脸部的空间信息等输入数据获得额外信息，这有助于主SL任务。已经研究了这种方法如何用于自我监督的前任务，如拼图游戏和绘画。通过这两种方法帮助监督的头SH在不同的培训设置中降低不同增强和低数据制度下的错误率。通过两种完全不同的HL方法在EffectNet上达到本领域的状态，而不利用额外的数据集。此外，HL S效果显示在两个不同的面部相关问题上，头部姿势估计和性别识别，这得出结论，分别将误差率降低至9和1。此外，我们看到HL方法阻止了模型达到了过度装备。

Deep Graphics Encoder for Real-Time Video Makeup Synthesis from Example
Authors Robin Kips, Ruowei Jiang, Sileye Ba, Edmund Phung, Parham Aarabi, Pietro Gori, Matthieu Perrot, Isabelle Bloch
虽然化妆虚拟尝试现在很广泛，但参加了用于合成给定化妆品产品的计算机图形渲染引擎仍然是一个具有挑战性的任务。在本文中，我们通过学习将示例纵像图像映射到渲染参数的空间来映射示例纵向图像的模型来介绍用于从参考图像的自动化妆综合的逆计算机图形方法。该方法可以由艺术家使用，以自动创建现实的虚拟化妆品图像样本，或者由消费者自然地尝试从他们喜欢的参考图像中提取的化妆。

Vision-based Neural Scene Representations for Spacecraft
Authors Anne Mergy, Gurvan Lecuyer, Dawa Derksen, Dario Izzo
在高级自主权的先进任务概念中，航天器需要在内部模拟附近轨道物体的姿势和形状。最近在神经场景表示中的作品显示了从光学图像推断出通用三维场景的有希望的结果。神经辐射场nerf在使用大量图像及其姿势呈现高度镜面表面的成功。最近，由于使用对抗性框架来训练NERF，因此，仅生成的辐射田地GRAF仅实现了从未曝光的图像的场景的全容积重建。在本文中，我们比较和评估Nerf和Graf的潜力，以提取两种不同航天器的3D形状，欧安全景署的水分和海洋盐度卫星和通用立方体卫星。考虑到这两种模型的最佳表现，我们观察到NERF能够能够呈现关于航天器的材料镜面和姿势的更准确的图像。就其部分而言，即使卫星的部分遮蔽，同时具有不需要有关相对姿势的任何信息的显着优势，GRAF也可以通过精确的细节产生精确的细节。

Efficient Lightweight 3D-CNN using Frame Skipping and Contrast Enhancement for Facial Macro- and Micro-expression Spotting
Authors Chuin Hong Yap, Moi Hoon Yap, Adrian K. Davison, Ryan Cunningham
微表达斑点是任何微表达相关分析的初步步骤，以避免过度误报。我们提出了一种有效的轻质宏观和微表达斑点方法，利用了宏观和微表达的持续时间差异。使用有效帧跳过，局部对比度归一化，深度可分离卷积和残余连接，我们使用帧跳过和对比度增强EL面构建高效的轻量级3D卷积网络，用于微表达式拍摄任务。我们的模型在SAMM长视频中实现了最先进的性能，并在CAS ME 2数据集中保持竞争力。

A one-armed CNN for exoplanet detection from light curves
Authors Koko Visser, Bas Bosma, Eric Postma
我们提出了一个武装简化的卷积神经网络CNN的创世纪，并且将其与称为Astronet的更复杂，两个武装CNN。此外，我们研究了蒙特卡罗交叉验证如何影响外产检测性能的估计。最后，我们提高了双重的输入分辨率，以评估其对性能的影响。实验表明，与Astronet相比，Genesis的复杂性降低，即超过95次减少的自由参数的数量，突击的性能成本约为0.5，II蒙特卡罗交叉验证提供了更现实的表现估计原始估计下方几乎0.7，并且III输入分辨率的双重增加将平均性能降低约0.5。我们通过争辩说，浅谈CNN架构的进一步探索可能是有益的，以提高基于CNN基础的EXOPLANET检测的普遍性。

Reciprocal Feature Learning via Explicit and Implicit Tasks in Scene Text Recognition
Authors Hui Jiang, Yunlu Xu, Zhanzhan Cheng, Shiliang Pu, Yi Niu, Wenqi Ren, Fei Wu, Wenming Tan
文本识别是其广泛应用程序的流行主题。在这项工作中，我们挖掘了传统文本识别内的隐式任务，角色计数，而无需额外的劳动力注释成本。隐式任务播放为用于补充顺序识别的辅助分支。我们设计了两个分支互惠特征学习框架，以便充分利用来自任务的特征。通过利用显式和隐式任务之间的互补效果，该功能可靠地增强。在7个基准测试中的广泛实验表明了文本识别和新建字符数的提出方法的优势。此外，它还具有可变网络和任务的装备方便。我们提供丰富的消融研究，概括了对任务更深入了解的实验。代码可用。

LGPMA: Complicated Table Structure Recognition with Local and Global Pyramid Mask Alignment
Authors Liang Qiao, Zaisheng Li, Zhanzhan Cheng, Peng Zhang, Shiliang Pu, Yi Niu, Wenqi Ren, Wenming Tan, Fei Wu
表结构识别是由于各种结构和复杂的细胞关系的具有挑战性的任务。以前的方法处理了从不同粒度行列中的元素开始的问题，文本区域，以某种方式陷入了有损的启发式规则或忽视空细胞分裂等问题。基于表结构特征，我们发现获取文本区域的对齐边界框可以有效地维持整个相关细胞的整个相关范围。然而，由于视觉歧义，难以准确地预测对齐的边界盒。在本文中，我们的目标是通过在全球特征中的提出的本地特征和细胞关系中充分利用来自文本区域的视觉信息来获得更可靠的对齐边界框。具体而言，我们提出了本地和全局金字塔掩模对齐的框架，它采用本地和全局特征映射中的软金字塔掩模学习机制。它允许边界框的预测边界来突破原始提案的限制。然后将金字塔掩模重新评分模块集成以危及本地和全局信息并优化预测的边界。最后，我们提出了一种强大的表结构恢复管道来获得最终结构，其中我们还有效地解决了定位和分割的空细胞的问题。实验结果表明，该方法在几个公共基准测试中实现了竞争性甚至新的最新状态。

VSR: A Unified Framework for Document Layout Analysis combining Vision, Semantics and Relations
Authors Peng Zhang, Can Li, Liang Qiao, Zhanzhan Cheng, Shiliang Pu, Yi Niu, Fei Wu
文档布局分析对于了解文档结构至关重要。关于此任务，愿景和文档的语义，布局组件之间的关系有助于了解过程。尽管已经提出了许多作品来利用上述信息，但它们显示出不令人满意的结果。基于NLP的方法模型布局分析作为序列标记任务，并在布局建模中显示了不足的能力。基于CV的方法模型布局分析作为检测或分割任务，但是误差效率融合的限制和布局组件之间的关系建模。为了解决上述限制，我们提出了一个统一的框架VSR，用于文档布局分析，结合视野，语义和关系。 VSR支持基于NLP和基于CV的方法。具体来说，我们首先通过文档图像和语义通过文本嵌入映射介绍愿景。然后，使用两个流网络提取模态特定的视觉和语义特征，其自适应地融合以充分利用互补信息。最后，给定组件候选者，基于图形神经网络的关系模块被激活以模拟组件之间的关系和输出最终结果。在三个流行的基准测试中，VSR赢得了以前的型号大幅边缘。代码即将发布。

TransferI2I: Transfer Learning for Image-to-Image Translation from Small Datasets
Authors Yaxing Wang, Hector Laria Mantecon, Joost van de WeijerLaura Lopez Fuentes, Bogdan Raducanu
图像到图像I2I翻译近年来已经成熟，并且能够产生高质量的现实图像。然而，尽管有当前的成功，当应用于小型领域时，它仍然面临着重要的挑战。现有方法使用转移学习I2I翻译，但他们仍然需要从头开始学习数百万参数。此缺点严重限制了其对小型域的应用。在本文中，我们提出了对I2I翻译转移的新转移学习。我们将我们的学习过程分离为图像生成步骤和I2I翻译步骤。在第一步中，我们提出了两种新颖的技术源目标初始化和适配器层的自我初始化。前FineTunes预磨削的生成模型例如，在源和目标数据上的样式。后者允许在不需要任何数据的情况下初始化所有未磨平的网络参数。这些技术为I2I翻译步骤提供了更好的初始化。此外，我们介绍了一种辅助GaN，即使来自小型数据集，也有助于培训深层I2I系统。在三个数据集的广泛实验中，动物面，鸟类和食品，我们表明我们优于现有的方法，并且MFID在几个超过25分的数据集上提高了多个数据集。

SizeNet: Object Recognition via Object Real Size-based convolutional networks
Authors Xiaofei Li, Zhong Dong
通过结论，人类选择视觉皮质区域的结论，该区域对应于对象的真实尺寸来分析对象的特征，当实现现实世界中的物体时。本文介绍了一个框架Sizenet，基于实际大小和对象的特征，解决对象识别问题。 Sizenet用于对象识别实验在自制RSIZE数据集上，与现有技术的状态相比AlexNet，VGG 16，Inception V3，Reset18 DenSenet 121.结果表明，Sizenet为物体识别提供了更高的精度率其他算法。 Sizenet可以解决正确识别特征高度相似的对象的两个问题，但实际大小彼此显然是不同的，并且正确地将目标对象与来自目标对象显然不同的干扰对象区分开。这是因为Sizenet不仅根据特征识别对象，还识别对象，也是真实尺寸。该对象的实际大小可以帮助排除真实尺寸范围与对象的实际大小不匹配的干扰对象类别，这大大减少了基于对象特征的标签集中用于下游对象识别的标签集中的对象类别。 Sizenet对可解释的计算机愿景的研究具有重要意义。我们的代码和数据集将公开。

Adaptive Test-Time Augmentation for Low-Power CPU
Authors Luca Mocerino, Roberto G. Rizzo, Valentino Peluso, Andrea Calimera, Enrico Macii
卷积神经网络扫描器探测使用少数可用数据训练，因此当在现场上移植时可能会遭受大量的精度损失，其中在不可预测的外部条件下收到的未经看线输入模式可以误导模型。测试时间增强TTA技术旨在缓解推理时间的这种常见副作用，首先运行多个进料前进通过相同输入样本的一组改变版本，然后通过汇总预测的共识计算主要结果。遗憾的是，TTA在嵌入式CPU上的实现引入了限制其在边缘应用中采用的延迟损失。为了解决这个问题，我们提出了一种自适应的AdaptTA，控制器的自适应实现控制前向前通过动态传递的馈送数量，这取决于输入的复杂性。在商用ARM Cortex上部署的艺术状态的实验结果COLTEX AETPTEX ADAPTETA达到显着的延迟节省，从1.49倍到2.21倍，与静态TTA相比，较高的帧速率，仍保持相同的精度增益。

Global Wheat Challenge 2020: Analysis of the competition design and winning models
Authors Etienne David, Franklin Ogidi, Wei Guo, Frederic Baret, Ian Stavness
数据竞赛已成为通用和专业数据科学问题的人群新数据分析方法的流行方法。在植物表型中，数据竞争具有丰富的历史，新的室外场数据集具有新的数据竞争。我们开发了全球小麦挑战作为泛化竞争，看看野外图像的小麦头部检测的解决方案是否会在世界各地的不同地区工作。在本文中，我们在鲁棒性和模型和数据增强设计决策的相对重要性方面分析了胜利挑战解决方案。我们发现，竞争的设计会影响赢取解决方案的选择，并为未来竞争提供建议，以试图加强更强大的获胜解决方案。

Relation-aware Hierarchical Attention Framework for Video Question Answering
Authors Fangtao Li, Ting Bai, Chenyu Cao, Zihe Liu, Chenghao Yan, Bin Wu
视频问题回答视频仪是一个具有挑战性的视频理解任务，因为它需要深入了解问号和视频。以前的研究主要集中在提取复杂的视觉和语言嵌入，通过精致的手工制作网络融合它们。然而，不同框架，物体和模态对问题的相关性随着时间的变化而变化，在大多数现有方法中被忽略。缺乏对物体之间的动态关系和交互的理解为VideoQA带来了巨大的挑战

When Human Pose Estimation Meets Robustness: Adversarial Algorithms and Benchmarks
Authors Jiahang Wang, Sheng Jin, Wentao Liu, Weizhong Liu, Chen Qian, Ping Luo
人类姿势估计是计算机愿景中的一个基本但具有挑战性的任务，旨在本地化人解剖关键点。然而，与对各种数据损坏的人类视觉不同，诸如模糊和像素的各种数据损坏，当前的姿势估计器容易被这些损坏混淆。通过建立严格的强大的基准，称为COCO C，MPII C和OCHUMAN C，以评估当前高级姿势估算的弱点，提出了一种促进其不同损坏中的新算法，以评估其所谓的ADVMIX的弱点来全面研究和解决这一问题。。我们的工作有几个独特的好处。 1 AdvMix是模型不可知的姿态和能够在广泛的姿势估计模型中。 2 Advmix由对抗性增强和知识蒸馏组成。对手增强包含两个神经网络模块，其以越野方式共同且竞争地训练，其中发电机网络混合不同损坏的图像来混淆姿势估计器，通过从更难的样本学习来改善姿势估计器的鲁棒性。为了通过对抗性增强来补偿噪声模式，应用知识蒸馏来将清洁姿势结构知识转移到目标姿势估计器。 3广泛的实验表明，Advmix显着提高了各种腐败范围内的姿势估计的稳健性，同时在各种具有挑战性的基准数据集中保持清洁数据的准确性。

Boosting Light-Weight Depth Estimation Via Knowledge Distillation
Authors Junjie Hu, Chenyou Fan, Hualie Jiang, Xiyue Guo, Xiangyong Lu, Tin Lun Lam
深度估计的高级性能是通过使用大型和复杂的神经网络来实现的。虽然表现仍然不断提高，但我们认为深度估计必须准确和高效。这是对现实世界应用的初步要求。然而，快速深度估计趋于将性能降低到模型S容量和准确性之间的折衷。在本文中，我们试图用轻量级网络归档高度精确的深度估计。为此，我们首先介绍一个紧凑的网络，可以实时估计深度图。然后，我们技术上展示了两种互补和必要的策略来提高轻量级网络的性能。随着现实世界场景的数量是无限的，首先是辅助数据的就业，这些数据增加了培训数据的多样性。第二是使用知识蒸馏来进一步提高性能。通过广泛且严谨的实验，我们表明我们的方法在推理准确度，计算效率和泛化方面优于先前的重量级方法。我们可以实现相当的性能与现有技术的状态，另一方面，我们的方法通过显着的余量优于其他轻量级方法。

Unsupervised Hashing with Contrastive Information Bottleneck
Authors Zexuan Qiu, Qinliang Su, Zijing Ou, Jianxing Yu, Changyou Chen
隐式建立许多无监督的散列方法，用于重建输入数据的想法，基本上鼓励散列代码保留尽可能多的原始数据信息。然而，这一要求可能强迫模型在重建不使用的背景信息时花费大量努力，同时忽略以保留对散列任务更重要的辨别性语义信息。为了解决这个问题，灵感来自最近在学习持续陈述方面的对比学习的成功，我们建议使这个框架改编以学习二进制散列代码。具体地，我们首先建议修改目标函数以满足散列的特定要求，然后将概率二进制表示层引入模型中以便于整个模型的结束训练。我们进一步证明了所提出的基于对比学习的散列方法和互信息之间的强烈连接，并表明所提出的模型可以在信息瓶颈IB的更广泛的框架下考虑。在这种角度下，自然地获得了更一般的散列模型。三个基准图像数据集的广泛实验结果表明，所提出的散列方法显着优于现有基线。

SAFIN: Arbitrary Style Transfer With Self-Attentive Factorized Instance Normalization
Authors Aaditya Singh, Shreeshail Hingane, Xinyu Gong, Zhangyang Wang
艺术风格传输旨在在保留其内容的同时将一个图像的样式特性转移到另一个图像上。现有方法通常利用各种归一化技术，尽管这些面部的限制在适当地将不同的纹理转移到不同的空间位置。基于自我关注的方法已经解决了这个问题，部分成功但遭受了不必要的伪影。通过这些观察结果，本文旨在将世界上最好的自我关注和标准化结合起来。这产生了一种新的即插即用模块，我们将注意力集团的FAC折叠实例标准化SAFIZIN。 SAFIN基本上是一种空间自适应归一化模块，其参数通过注意内容和样式图像来推断。我们证明将SAFIN插入到另一个最新状态的基础网络中，这导致了更强的程式化。我们还开发了一种新的基础网络，由小波变换组成，用于多尺度样式转移，这与Safin结合时，通过较小的不需要的纹理产生视觉吸引力的结果。

Deep Unsupervised Hashing by Distilled Smooth Guidance
Authors Xiao Luo, Zeyu Ma, Daqing Wu, Huasong Zhong, Chong Chen, Jinwen Ma, Minghua Deng
散列已广泛用于近似最近邻的搜索，以获得其存储和计算效率。由于缺乏标记数据，尤其是当域被转移时，深度监督散列方法并未被广泛使用。同时，由于缺乏可靠的相似性信号，无监督的深散缝模型可能几乎无法实现令人满意的性能。为了解决这个问题，我们提出了一种新颖的无监督散列方法，即蒸馏出平滑的指导DSG，可以学习由相似性信号以及平稳置信信号组成的蒸馏数据集。具体而言，我们基于从本地结构中学到的初始噪声相似性信号获得相似性置信权重，并构建优先级损耗函数，以便平滑相似度保存学习。此外，基于聚类的全局信息用于通过去除矛盾的相似性信号来蒸馏图像对。在三种广泛使用的基准数据集上进行了广泛的实验，表明，所提出的DSG始终如一地优于现有搜索方法的状态。

TAR: Generalized Forensic Framework to Detect Deepfakes using Weakly Supervised Learning
Authors Sangyup Lee, Shahroz Tariq, Junyaup Kim, Simon S. Woo
Deepfakes已成为一个关键的社会问题，并检测它们至关重要。此外，DeepFake发电方法正在推进，并且越来越难以检测。虽然许多DeepFake检测模型可以单独检测不同类型的深型，但它们在概括多种类型的深色的检测性能方面表现不佳。这使我们开发了一种广义模型来检测不同类型的德国。因此，在这项工作中，我们介绍了一种实用的数字法医工具，可以同时检测不同类型的深型，并用残留焦油提出基于基于学习的自动化器。我们作品的最终目标是开发一个统一的模型，以检测具有高精度的各种类型的DeepFake视频，只有少数培训样本，可以在现实世界中提供良好。我们使用残差块开发基于AutoEncoder的检测模型，并顺序地执行转移学习，同时检测不同类型的深型。我们的方法达到了比面部叛徒数据集上的最新方法更高的广义检测性能。此外，我们在互联网上有50个名人的野生DW视频中评估了我们200个现实世界的模型，达到了89.49次射击精度，这显着高于最佳基线模型10.77，展示和验证我们的实用性方法。

Superevents: Towards Native Semantic Segmentation for Event-based Cameras
Authors Weng Fei Low, Ankit Sonthalia, Zhi Gao, Andr van Schaik, Bharath Ramesh
大多数成功的计算机视觉模型将低级别功能（如Gabor滤波器响应）转换为富裕表示下游视觉任务的中间或中级复杂性的表示。尚未对事件相机探索这些中级表示，尽管它与事件流中的视觉稀疏和通常不相交的空间信息特别相关。通过利用当地一致的中间表示称为uperevents，许多视觉任务范围从语义分割，视觉跟踪，深度估计都会受益。从本质上讲，uperevents是感知的一致局部单位，其在场景中描绘了一个物体的部分。灵感来自近期深度学习架构，我们提出了一种新的方法，该方法采用寿命增强来获取馈送到完全卷积网络以提取渗透物的事件流表示。我们对基准数据集的几个序列的定性和定量实验结果突出了基于事件的下游应用的重要潜力。

Learning symbol relation tree for online mathematical expression recognition
Authors Thanh Nghia Truong, Hung Tuan Nguyen, Cuong Tuan Nguyen, Masaki Nakagawa
本文提出了一种通过直接从一系列笔划构建符号关系树SRT来识别Onhme的在线手写数学表达式ONHME的方法。双向反复性神经网络从SRT的多个派生路径学习，以预测使用全局上下文之间的符号和空间关系。识别系统有两个部分是时间分类器和树连接器。通过识别ONHME模式，时间分类器产生SRT。树连接器将SRT分成几个子SRT。最终的SRT是通过在这些子SRTS中寻找最佳组合来形成的。此外，我们采用树分类方法来处理各种笔画令。识别实验表明，建议的Onhme识别系统对其他方法具有竞争力。识别系统实现了44.12年和41.76次表达识别率，就竞争对手竞争识别在线手写数学表达式Crohme 2014和2016年测试集。

GAN Prior Embedded Network for Blind Face Restoration in the Wild
Authors Tao Yang 1 , Peiran Ren 1 , Xuansong Xie 1 , Lei Zhang 1 and 2 1 DAMO Academy, Alibaba Group, 2 Department of Computing, The Hong Kong Polytechnic University
盲目恢复BFR在野外严重劣化的面部图像是一个非常具有挑战性的问题。由于问题的高疾病和复杂的未知降解，直接训练深神经网络DNN通常不能导致可接受的结果。基于生成的对抗网络GaN的方法可以产生更好的结果，但趋于在平滑的修复上产生。在这项工作中，我们通过首先学习一个新的方法来首先学习高质量的面部图像生成并将其嵌入U形DNN作为先前的解码器，然后精细调谐GaN先前嵌入DNN与一组合成的低质量面部图像。 GaN块旨在确保可以从DNN的深层和浅的特征产生潜在的守则和噪声，控制全局面部结构，局面细节和重建图像的背景。提议的GaN先前嵌入式网络GPEN易于实施，它可以在视觉上产生逼真的结果。我们的实验表明，拟议的GPEN定量和定性地实现了现有技术的现有技术的最佳结果，特别是在野外恢复严重降级的面部图像。可以找到源代码和模型

Model Pruning Based on Quantified Similarity of Feature Maps
Authors Zidu Wang, Xuexin Liu, Long Huang, Yunqing Chen, Yufei Zhang, Zhikang Lin, Rui Wang
高精度CNN通常伴随着巨大的参数，通常存储在高维张量中。然而，少数方法可以弄清楚存储在高维张量中的参数的冗余信息，这导致CNN的压缩缺乏理论引导。在本文中，我们提出了一种新颖的理论，以找到三维张量的冗余信息，即特征映射QSFM的量化相似性，并使用该理论来提高推理速度的卷积神经网络。我们的方法属于过滤器修剪，可以在不使用任何特殊库的情况下实现。我们不仅在普通卷积层上执行我们的方法，还能在特殊的卷积层上进行，例如深度可分离的卷积层。实验证明，QSFM可以有效地找到神经网络中的冗余信息。如果没有任何微调操作，QSFM可以在CiFar 10上压缩Reset 56，显着48.27拖鞋和57.90个参数减少，只有0.54的损失，最高1精度。 QSFM还通过微调操作修剪Reset 56，VGG 16和MobileNetv2，也显示出优异的结果。

Compatibility-aware Heterogeneous Visual Search
Authors Rahul Duggal, Hao Zhou, Shuo Yang, Yuanjun Xiong, Wei Xia, Zhuowen Tu, Stefano Soatto
我们解决了资源约束下的视觉搜索问题。现有系统使用相同的嵌入模型来计算查询和库图像的嵌入式的表示。这种系统本身面对嵌入式模型的硬度效率折衷，需要足够大，以确保高精度，但足够小，以便在资源受限平台上启用查询嵌入计算。如果从大型模型生成图库嵌入式，则可以减轻此折扣，并且使用紧凑的模型提取查询嵌入品。构建此类系统的关键是确保查询和库模型之间的表示兼容性。在本文中，我们通过修改计算嵌入式的每个型号的参数来解决两种形式的兼容性。另一个通过修改计算嵌入式的架构，导致兼容性感知神经结构搜索CMP NAS。我们在挑战时尚图像Deepfashion2的挑战性任务中测试CMP NA，以及面部图像IJB C.与使用最大的嵌入模型Paragon相比，CMP NAS的普通均匀视觉搜索相比，CMP NAS实现了80倍和23倍的成本降低，同时在Deadfashion2和IJB C的Paragon的0.3和1.6内保持精度。

Extreme Face Inpainting with Sketch-Guided Conditional GAN
Authors Nilesh Pandey, Andreas Savakis
恢复严重损坏的面部图像是一个有用而挑战的任务，特别是在遮蔽或受损区域非常大的极端情况下。其中一个主要挑战是系统在培训数据集外面概括的能力。我们建议使用条件生成的对抗网络GaN来解决这种极端的染色任务，该网络GAN利用如前状况的结构信息，例如边缘。可以从部分屏蔽的图像和结构相似的图像或手绘获得边缘信息。在我们提出的条件GaN中，我们通过编码器的每层条件输入，同时保持学习权重和传入条件输入之间的分布中的一致性。我们展示了我们对严重受损的面部示例的方法的有效性。

Neural Trajectory Fields for Dynamic Novel View Synthesis
Authors Chaoyang Wang, Ben Eckart, Simon Lucey, Orazio Gallo
最近从有限一套照片中渲染的光电视图的方法推动了我们与静态场景的图片的互动的界限。重新创建时刻的能力，即时间变化序列，也许是更有趣的情景，但它仍然很大程度上是未解决的。我们介绍了DCT NERF，一个用于动态场景的协调性神经表示。 DCTNERF在空间中每个点的输入顺序学习平滑稳定的轨迹。这允许我们在序列中的任何两个帧之间强制执行一致性，这导致高质量的重建，特别是在动态区域中。

Connecting What to Say With Where to Look by Modeling Human Attention Traces
Authors Zihang Meng, Licheng Yu, Ning Zhang, Tamara Berg, Babak Damavandi, Vikas Singh, Amy Bearman
我们介绍了一个统一的框架，以共同模拟图像，文本和人类注意痕迹。我们的工作是基于最近的本地化叙述者注释框架30的顶部，其中给定标题的每个单词与鼠标跟踪段配对。我们提出了两个新颖的任务1预测给定图像和标题的迹线，即视觉接地和2预测仅给出图像的标题和轨迹。学习每个单词的接地是具有挑战性的，由于人类的噪音提供了迹线和没有有意义的视觉地接地的单词的存在。我们提出了一种新型模型架构，这些架构在双任务中受到了控制的轨迹生成和受控字幕的产生。为了评估所生成的迹线的质量，我们提出了局部双链匹配的LBM距离度量，其允许比较两种不同长度的痕迹。广泛的实验表明，我们的模型对不完美的训练数据具有稳健性，并且通过清晰的边距优于基线。此外，我们证明我们的模型预先培训了所提出的任务也可以对Coco S引导图像标题的下游任务有益。我们的代码和项目页面是公开可用的。

Semantic Diversity Learning for Zero-Shot Multi-label Classification
Authors Avi Ben Cohen, Nadav Zamir, Emanuel Ben Baruch, Itamar Friedman, Lihi Zelnik Manor
培训用于识别与图像相关的多个标签的神经网络模型，包括识别未经看不见的标签，是具有挑战性的，特别是对于描绘无数语义多样化标签的图像。与此任务一样有挑战性，它是一个基本任务，因为它代表了许多真实世界的情况，例如自然图像的图像检索。我们争辩说，使用单个嵌入的向量来表示图像，通常实践，不足以准确地排名和看不见的标签。本研究介绍了用于多标签零拍摄学习的结束模型培训，支持图像和标签的语义多样性。我们建议使用嵌入矩阵具有使用定制损失函数训练的主体嵌入矢量。此外，在培训期间，我们建议在呈现更高语义多样性的损失函数图像样本中提出加权，以鼓励嵌入矩阵的多样性。广泛的实验表明，我们所提出的方法在基于标签的图像检索中提高了零拍摄模型S质量，实现了几个常见的数据集Nus宽，可可拍摄的SOTA结果。

What's wrong with this video? Comparing Explainers for Deepfake Detection
Authors Samuele Pino, Mark James Carman, Paolo Bestagini
Deepfakes是计算机操纵视频，在那里，个人的面部已被另一个人的替换。创建此类锻造的软件易于使用，更受欢迎，导致对个人声誉和公共安全的严重威胁。释放更大的数据集的释放，检测Deepfakes的分类器的质量提高了，但了解为什么特定视频被标记为假的，而不是保持速度。

Unsupervised Acute Intracranial Hemorrhage Segmentation with Mixture Models
Authors Kimmo K rkk inen, Shayan Fazeli, Majid Sarrafzadeh
当血管破裂或泄漏在脑组织或颅骨内部的其他地方时，会发生颅内出血。它可能是由物理创伤或各种医疗条件引起的，并且在许多情况下导致死亡。必须尽快开始治疗，因此应准确且快速地诊断出血。诊断通常由分析在整个大脑中包含大量横截面图像的计算机断层扫描CT扫描的放射科。手动分析每个图像可能会非常耗时，但自动化技术可以帮助加快过程。虽然最近的大部分研究专注于通过使用监督机器学习算法来解决这个问题，但由于隐私问题，公开的培训数据仍然稀缺。无法通过无监督算法来缓解此问题。在本文中，我们提出了一种完全无监督的算法，该算法基于混合模型。我们的算法利用了出血和健康组织的性质遵循不同的分布，因此适当的这些分布的制剂允许我们通过期望最大化过程将它们分开。此外，我们的算法能够自适应地确定簇的数量，使得可以在不包括嘈杂的体素的情况下找到所有出血区域。我们展示了我们在含有各种尺寸和强度中的所有不同出血类型的公开可用数据集的算法的结果，并将结果与早期无监督和监督算法进行比较。结果表明，我们的算法可以优于与大多数出血类型相反的其他算法。

Out of the Box: Embodied Navigation in the Real World
Authors Roberto Bigazzi, Federico Landi, Marcella Cornia, Silvia Cascianelli, Lorenzo Baraldi, Rita Cucchiara
由于强大的模拟平台和室内和照片型环境的3D数据的可用性，所体现AI的研究领域目睹了视觉导航和探索的实质性进展。这两个因素已将大门开放到新一代智能代理，能够实现近乎完善的Pointgoal导航。然而，这种架构通常在数百万，如果不是数十亿的帧，并且在仿真中进行测试。这些结果伴随着极大的热情，这些结果产生了一个问题，其中有多少研究人员将有效地受益于这项工作中的这些进步，我们详细介绍了如何将模拟中获得的知识传输到现实世界中。为此，我们描述了损害了栖息地模拟器培训的模型的SIM2重型适应能力的架构差异，并提出了一种针对现实世界场景的部署量身定制的新型解决方案。然后，我们在Logobot上部署模型，一个设备齐全的机器人，配备单个Intel RealSense相机。与以前的工作不同，我们的测试场景无法在模拟中的代理中使用。事先对代理商来说也无法进入，因此它不能依靠场景特定的语义前提。通过这种方式，我们重现了一种设置，其中可能来自其他字段的研究组需要使用代理视觉导航功能作为服务。我们的实验表明，当在现实世界中部署所获得的模型时，可以实现满足的结果。我们的代码和型号可供选择

End-to-End Sequential Sampling and Reconstruction for MR Imaging
Authors Tianwei Yin, Zihui Wu, He Sun, Adrian V. Dalca, Yisong Yue, Katherine L. Bouman
加速MRI通过在测量k空间中进行分支来缩短采集时间。从所述离子测量中恢复高保真解剖图像需要在两个组件1之间密切合作，选择用于从不完全测量的重新构建器的子采样模式和2的研究。在本文中，我们利用MRI测量的顺序性，并提出了一种完全可差的框架，其与重建战略同时共同学习顺序采样政策。该CO设计的框架能够在采集期间适应，以便捕获特定目标的最具信息的测量图1。 FastMri膝关节数据集上的实验结果表明，所提出的方法在采样过程中成功利用中间信息来提高重建性能。特别是，我们所提出的方法优于最新的现有技术，学习了最多96.96的测试样品的空间采样基线。我们还调查了顺序采样和CO设计策略的个人和集体益处。代码和更多可视化可用

SyntheticFur dataset for neural rendering
Authors Trung Le, Ryan Poplin, Fred Bertsch, Andeep Singh Toor, Margaret L. Oh
我们介绍一个名为SyntheticFur的新数据集，专门用于机器学习培训。 DataSet由Ray跟踪的合成毛皮渲染，具有相应的光栅输入缓冲区和模拟数据文件。我们通过Houdini程序程序生成了大约140,000个图像和15个模拟。图像包括用不同的皮肤基元修饰，并在预定义的照明环境中使用各种动作。我们还证明了数据集如何与神经渲染一起使用，以通过培训具有感知损失的条件生成的对抗网络来显着改善使用廉价的输入缓冲器的毛皮图形。我们希望这类高保真毛皮厂商的可用性将鼓励新的展望为各种应用程序进行新的进展。

Frequent Pattern Mining in Continuous-time Temporal Networks
Authors Ali Jazayeri, Christopher C. Yang
网络用作不同学科的高度表现力的工具。近年来，时间网络的分析和挖掘引起了大量关注。频繁的模式挖掘被认为是网络科学文献中的重要任务。除了众多应用外，网络中频繁模式挖掘的调查直接影响了其他分析方法，如聚类，准集团和集团挖掘和链路预测。在几乎所有用于在时间网络中频繁挖掘的常见模式挖掘的所有算法中，网络都表示为静态网络的序列。然后，开采间或帧内网络模式。这种类型的代表对采矿问题施加了计算表达力贸易。在本文中，我们提出了一种新颖的表示，可以无损地保护网络的时间方面。然后，我们介绍约束间隔图CIGS的概念。接下来，我们开发了一系列算法，用于在时间网络数据集中挖掘完整的频繁时间模式。我们还考虑四个不同的同义定义，以允许时间数据收集中的噪声容限。实现三个真实世界数据集的算法证明了所提出的算法的实用性及其能力在各种设置中发现未知模式。

Neighborhood-Aware Neural Architecture Search
Authors Xiaofang Wang, Shengcao Cao, Mengtian Li, Kris M. Kitani
现有的神经架构搜索NAS方法通常会返回具有良好搜索性能的架构，但概括到测试设置不佳。为了实现更好的概括，我们提出了一种新颖的邻里意识的NAS制定，以确定搜索空间中的平坦最小架构，假设平坦的最小值优于尖锐的最小值。短语扁平最小值架构是指在架构中的小扰动下性能稳定的架构，例如，用跳过连接替换卷积。我们的配方通过在该架构附近的性能聚合来考虑架构的平整度。我们展示了将我们的配方应用于现有搜索算法的原则方法，包括基于采样的算法和基于梯度的算法。为了促进应用于梯度的算法，我们还向架构附近提出了一个可差的表示。基于我们的配方，我们提出了邻里有所了解的随机搜索NA RS和邻域意识可分辨率架构搜索NA飞镖。值得注意的是，通过简单地通过我们的配方增强飞镖，NA DART发现架构，这些架构表现出更好或与所熟悉的NAS方法发现的那些在建立的基准上，包括CIFAR 10，CIFAR 100和ImageNet。

Forensic Analysis of Video Files Using Metadata
Authors Ziyue Xiang, J nos Horv th, Sriram Baireddy, Paolo Bestagini, Stefano Tubaro, Edward J. Delp
操作视频内容的前所未有的轻松和能力导致了操纵介质的快速传播。近年来，视频编辑工具的可用性大大增加，允许一个人轻松地生成照片现实的改变。这种操作可以在嵌入视频文件中的元数据中留下迹线。此元数据信息可用于确定视频操作，视频记录设备的品牌，视频编辑工具的类型以及其他重要证据。在本文中，我们专注于流行的MP4视频包装器容器中包含的元数据。我们描述了我们对使用MP4 S树结构的元数据提取器的方法。我们分析视频元数据的方法产生更紧凑的表示。我们将描述我们如何从元数据构造特征，然后使用维度减少和最近的邻分类进行视频文件的法医分析。我们的方法允许人们在视觉上检查元数据特征的分布并做出决策。实验结果证实，我们的方法的性能超越了其他方法。

Vision-Guided Active Tactile Perception for Crack Detection and Reconstruction
Authors Jiaqi Jiang, Guanqun Cao, Daniel Fernandes Gomes, Shan Luo
裂纹检测对于监测桥梁和地下管道等基础设施的完整性和福祉具有重要意义，这是人们访问的恶劣环境。近年来，计算机视觉技术已应用于混凝土结构中的裂缝。然而，它们在光线条件和阴影中遭受差异，缺乏鲁棒性，并导致许多误报。为了解决愿景中的不确定性，人类检查员积极触及结构的表面，由视野引导，尚未在自主裂纹检测中探讨。在本文中，我们提出了一种新的方法来使用视觉引导主动触觉感知来检测和重建混凝土结构中的裂缝。给定结构的RGB D图像时，结构表面中的裂缝的粗糙轮廓将首先用微调深卷积神经网络分段，并且产生一组接触点以通过相机引导触觉图像的集合基于光学触觉传感器。当进行触点时，可以通过触觉图像获得裂缝的像素明显的掩模，因此可以通过对准RGB D图像和触觉图像来改进裂缝的轮廓。广泛的实验结果表明，与视野的裂纹检测相比，该方法显着提高了裂纹检测和重建的有效性和稳健性，并且有可能使机器人能够帮助人类的检查和修复混凝土基础设施的检查和修复。

Video Corpus Moment Retrieval with Contrastive Learning
Authors Hao Zhang, Aixin Sun, Wei Jing, Guoshun Nan, Liangli Zhen, Joey Tianyi Zhou, Rick Siow Mong Goh
鉴于一个未经监控和未分段的视频集合，视频语料库片刻检索VCMR是检索时间矩即，一部分是语义对应于给定文本查询的视频。随着视频和文本来自两个不同的特征空间，有两种常规方法来寻址VCMR I来单独编码每个模态表示，然后对准查询处理的两个模态表示，并且II采用细粒度的跨模型交互来学习多模态查询处理的表示。虽然第二种方法往往导致更好的检索精度，但第一种方法更有效。在本文中，我们向VCMR的对比学习ReloclNet提出了一种检索和定位网络。我们采用了第一种方法，并介绍了两个对比学习目标，以优化视频编码器和文本编码器，以便单独学习视频和文本表示，但可以更好地对准VCMR。视频对比学习视频COCL是在视频级别的查询和候选视频之间最大化互信息。帧对比学习FRAMECL旨在突出显示在视频内帧级别的查询对应的时刻区域。实验结果表明，尽管REACLNET单独编码文本和视频以进行效率，但其检索精度与采用跨模型交互学习的基线相当。

Multi-scale Regional Attention Deeplab3+: Multiple Myeloma Plasma Cells Segmentation in Microscopic Images
Authors Afshin Bozorgpour, Reza Azad, Eman Showkatian, Alaa Sulaiman
多种骨髓瘤癌症是一种血癌，当异常血浆细胞的生长变得在骨髓中失控时发生。有各种方法可以在骨髓中诊断多种骨髓瘤，例如完整的血液计数测试CBC或使用手动可视化或通过图像处理技术计数吸血液中的骨髓瘤等离子体细胞。在这项工作中，已经探讨了一种用于多发性骨髓瘤等离子体细胞的检测和分割的自动深度学习方法。为此，设计了两级深度学习方法。在第一阶段，利用核检测网络来提取感兴趣的小区的每个实例。然后将提取的实例馈送到多尺度函数以生成多尺度表示。多尺度功能的目的是捕获形状变化并降低对象比例对细胞质分段网络的影响。然后将产生的鳞片送入细胞质网络的金字塔，以在各种尺度中学习分割图。在细胞质分段网络的顶部，我们包括比例聚合功能来细化和生成最终预测。拟议的方法已经在SEGPC2021大挑战中进行了评估，并在所有团队中排名第二是最终测试阶段。

Quantized Proximal Averaging Network for Analysis Sparse Coding
Authors Kartheek Kumar Reddy Nareddy, Mani Madhoolika Bulusu, Praveen Kumar Pokala, Chandra Sekhar Seelamantula
考虑到凸起和非凸稀痰促进惩罚的组合，我们解决了分析稀疏编码问题。多惩罚制剂导致涉及近端平均的迭代算法。然后，我们将迭代算法展开成为一种培训网络，其先前有助于学习稀疏性。我们还考虑对网络权重的量化。量化在推理期间的存储器和计算方面使神经网络有效，并且还符合它们兼容低精度硬件部署。我们的学习算法基于ADAM优化器的变型，其中量化器是前向通过的一部分，并且对应于量化的重量评估损耗函数的梯度，同时进行绘制高精度权重。我们展示了用于压缩图像恢复和磁共振图像重建的应用。所提出的方法提供优异的重建精度和质量，而不是艺术展开技术的状态，即使当重量受到极限量化时，性能下降也很小。

Geometric Model Checking of Continuous Space
Authors Nick Bezhanishvili, Vincenzo Ciancia, David Gabelaia, Gianluca Grilletti, Diego Latella, Mieke Massink
拓扑空间模型检查是最近的范式，它与模型检查与模型检查与模态逻辑的拓扑解释相结合。封闭空间的空间逻辑SLC，可通过可达性连接延伸模态逻辑，即反过来可以用于表达有趣的空间属性，例如靠近或被包围。 SLCS构成了一个坚实的逻辑框架的内核，了解离散空间，例如图形和数字图像，被解释为准离散闭合空间。特别是，使用扩展版本的SLCS的空间模型检查器VoxLogica已成功使用在医学成像域中。但是，SLC不限于离散空间。在最近开发的模态逻辑的几何语义之后，我们表明可以通过借助基于Polyhedra的模型来分配对连续空间中的SLC的解释，承认模型检查程序。在医学成像中，由于近期开发网格处理的3D扫描和可视化技术，这些空间的表示越来越相关。我们通过新工具，Polylogica展示了我们方法的可行性，目的是在Polyhedra上有效验证SLCS公式，同时继承VoxLogica中已经采用的一些已经采用的良好的优化技术。最后，我们迎合了双模性的几何定义，证明它表征了逻辑等价。

A hybrid machine learning/deep learning COVID-19 severity predictive model from CT images and clinical data
Authors Matteo Chieregato, Fabio Frangiamore, Mauro Morassi, Claudia Baresi, Stefania Nici, Chiara Bassetti, Claudio Bn , Marco Galelli
Covid 19临床介绍和预后是高度变化的，从无症状和持肺症患者到急性呼吸窘迫综合征和多器官参与。我们开发了一个混合机器学习深度学习模型，以分类为两种结果类别，非ICU和ICU重症监护或死亡，使用558名意大利北部的2月20日院患者的患者进行了分类。一个完全3D患者水平CNN分类器基线CT图像用作特征提取器。与实验室和临床数据一起提取的特征是在具有Shap游戏理论值的Boruta算法中选择。使用Catboost梯度升压算法构建了分类器，并在Catchost梯度升压算法上建立了概率AUC，概率AUC为0.949。该模型旨在为医生提供临床决策支持，概率得分属于成果类以及基于案例的特征重要性的形状解释。

HINet: Half Instance Normalization Network for Image Restoration
Authors Liangyu Chen, Xin Lu, Jie Zhang, Xiaojie Chu, Chengpeng Chen
在本文中，我们探讨了实例标准化在低级视觉任务中的作用。具体地，我们介绍了一种新颖的块半实例归一化块Hin块，以提高图像恢复网络的性能。基于HIN BLOCK，我们设计了一个名为HINET的简单而强大的多级网络，由两个子网组成。在Hin Block的帮助下，HINET超越了各种图像恢复任务的艺术SOTA的状态。对于图像去噪，我们在SIDD数据集上超过了PSNR 0.11dB和0.28 dB，其乘数累加器操作MAC中仅为7.5和30，分别加速6.8倍和2.9倍。对于图像解擦性，我们可以使用22.5的MAC获得可比性，并在红色和Gopro数据集中加速3.3倍。对于图像派大，我们在PSNR中超过了0.3 dB，在多个数据集的平均结果，加速1.4倍。使用HINET，我们在NTIRE 2021图像去掩饰挑战Track2上赢得了第1位。 JPEG工件，具有29.70的PSNR。代码可用

TopoTxR: A Topological Biomarker for Predicting Treatment Response in Breast Cancer
Authors Fan Wang, Saarthak Kapse, Steven Liu, Prateek Prasanna, Chao Chen
在动态对比度上的乳房实质表征增强磁共振成像DCE MRI由于底层组织结构的复杂性而是一个具有挑战性的任务。目前的定量方法包括辐射瘤和深度学习模型，不明确捕获复合物和微妙的实质结构，例如纤维族组织。在本文中，我们提出了一种新颖的方法，将神经网络的注意力引导到围绕生物学相关的组织结构的专用体素。通过提取具有高显着性的多维拓扑结构，我们构建拓扑衍生的生物标志物，Topotxr。我们展示了Topotxr在乳腺癌中对新辅助化疗的反应预测的疗效。我们的定性和定量结果表明了乳腺组织对治疗Na Ve成像的差异拓扑行为，在对治疗的患者与那些没有的人的患者中致谈。

DONet: Dual-Octave Network for Fast MR Image Reconstruction
Authors Chun Mei Feng, Zhanyuan Yang, Huazhu Fu, Yong Xu, Jian Yang, Ling Shao
磁共振MR图像采集是一个本质上长期的过程，其加速度长期以来一直是研究的主题。这是通过并行成像获取多个未采样的图像来实现的。在本文中，我们提出了双倍频网络Donet，其能够从MR数据的真实和虚部的实地和虚部学习多尺度空间频率特征，用于快速并行MR图像重建。更具体地说，我们的班宝特由一系列双八度卷曲卷积双OctConv组成，其以密集的方式连接，以便更好地重用功能。在每个双octConv中，输入特征映射和卷积内核首先分为两个组件，即，实地，并且根据其空间频率分成四组。然后，我们的双octconv进行组内信息更新和间间信息交换，以聚合不同组的上下文信息。我们的框架提供了三个吸引人的好处，我鼓励在各种空间频率下的真实和虚部组件之间的信息交互和融合，以实现更丰富的代表能力。 II每个双octConv中的实部和虚部之间的密集连接通过特征重用使具有更有效的功能的传播。 III Donet通过学习真实和虚部的多个空间频率特征来扩大接收领域。在两个流行的数据集中，临床膝关节和Fastmri的广泛实验，在不同的欠采样模式和加速因子下，展示了我们模型在加速并联MR图像重建中的优越性。

Removing Blocking Artifacts in Video Streams Using Event Cameras
Authors Henry H. Chopp, Srutarshi Banerjee, Oliver Cossairt, Aggelos K. Katsaggelos
在本文中，我们提出了一个梦想的神经网络，旨在使用来自神经形态传感器的事件去除视频中的阻塞伪像。我们首先使用Quadtree结构降低视频帧，以产生阻塞工件，以模拟在大约受约束的带宽下传输视频。还模拟了神经形态传感器的事件，但是全面传播。使用扭曲的帧和事件流，EverestNet能够提高图像质量。

Dynamical Isometry: The Missing Ingredient for Neural Network Pruning
Authors Huan Wang, Can Qin, Yue Bai, Yun Fu
最近的几项工作40,24观察了神经网络中的一个有趣现象，修剪较大的芬降学习率可以显着提高最终性能。不幸的是，它背后的原因仍然难以约会。本文旨在通过动态等距42的镜头来解释它。具体而言，我们将神经网络从非寻常的视角修剪中修剪作为初始化的初始化，并且询问继承的权重是从动态等距的识别洞中的良好初始化，表明负答案。尽管其关键作用，但到目前为止，这个问题并未得到很好的认可。在本文中，我们将展示对这个问题的理解是非常重要的，最重要的是解释上述关于更大的芬特率的神秘率，它也揭示了谜团关于修剪5,30的价值。除了更清晰的定制理论理解外，解决问题也可以在实践中带来相当大的性能效益。

The Federated Tumor Segmentation (FeTS) Challenge
Authors Sarthak Pati, Ujjwal Baid, Maximilian Zenk, Brandon Edwards, Micah Sheller, G. Anthony Reina, Patrick Foley, Alexey Gruzdev, Jason Martin, Shadi Albarqouni, Yong Chen, Russell Taki Shinohara, Annika Reinke, David Zimmerer, John B. Freymann, Justin S. Kirby, Christos Davatzikos, Rivka R. Colen, Aikaterini Kotrotsou, Daniel Marcus, Mikhail Milchenko, Arash Nazer, Hassan Fathallah Shaykh, Roland Wiest Andras Jakab, Marc Andre Weber, Abhishek Mahajan, Lena Maier Hein, Jens Kleesiek, Bjoern Menze, Klaus Maier Hein, Spyridon Bakas
该手稿描述了联合学习的第一个挑战，即联邦肿瘤细分FETS挑战2021.国际挑战已成为生物医学图像分析方法验证的标准。然而，即使是现实世界临床数据的参与的实际表现也经常尚不清楚，因为挑战中的数据通常在少数机构的非常控制的环境中获得。看似明显的解决方案刚刚收集更多来自更多机构的数据，这些挑战中的更多资料并未由于隐私和所有权障碍而衡量。为了减轻这些问题，我们建议FETS挑战2021迎接迎合外观，形状和组织学脑肿瘤的内在异质的开发和评估模型，即神经胶质瘤。具体而言，FET 2021攻击使用临床获取的多种机构磁共振成像MRI扫描来自Brats 2020挑战，以及来自Real World联合会的协作网络中包括的各种远程独立机构

Chinese Abs From Machine Translation

Papers from arxiv.org

更多精彩请移步主页