【AI视野·今日CV 计算机视觉论文速览第210期】Tue, 1 Jun 2021_mutil-branch for single image deraining using swin-CSDN博客

本文链接：https://blog.csdn.net/u014636245/article/details/117442631

AI视野·今日CS.CV 计算机视觉论文速览
Tue, 1 Jun 2021 (showing first 100 of 126 entries)
Totally 100 papers
👉上期速览✈更多精彩请移步主页

在这里插入图片描述

Interesting:

*****📚卷积和transformer的比较论文, (from 清华卡迪夫)
在这里插入图片描述

**📚DVT：Not All Images are Worth 16x16 Words: DynamicVision Transformers with Adaptive Sequence Length, 图像切分的token数量可以动态调整，实现动态transformer。 (from 清华华为)
Dynamic Vision Transformer：
In fact, we have observed that there exist a considerable number of “easy” images which can be accurately predicted with a mere number of 4x4 tokens, while only a small fraction of “hard” ones need a finer representation. Inspired by this phenomenon, we propose a Dynamic Transformer to automatically configure a proper number of tokens for each input image.
在这里插入图片描述

📚 Less Attention in Vision Transformers, (from 莫纳什大学)
Specifically, we propose a hierarchical Transformer where we use pure multi-layer perceptrons (MLPs) to encode rich local patterns in the early stages while applying self-attention modules to capture longer dependencies in deeper layers.
在这里插入图片描述

📚信使MSG-Transformer, 可以灵活地在不同区域间传输特征(from )
在这里插入图片描述

code：https://github.com/hustvl/MSG-Transformer

📚MixerGAN, 基于transformer的图像风格迁移 (from CMU)
在这里插入图片描述

📚SegFormer, (from 香港大学南京大学)
在这里插入图片描述

https://github.com/NVlabs/SegFormer

📚基于transformer的目光检测, (from 北航)
在这里插入图片描述
code:https://github.com/yihuacheng/GazeTR

📚SDNET, 基于swin transformer的多分支去雨架构(from 新疆大学)
在这里插入图片描述

https://github.com/H-tfx/SDNet

📚综述单目目标位姿与追踪, (from 人民大学清华大学 )
Monocular Object Pose Detection and Tracking
在这里插入图片描述

Daily Computer Vision Papers

SegFormer: Simple and Efficient Design for Semantic Segmentation with Transformers
Authors Enze Xie, Wenhai Wang, Zhiding Yu, Anima Anandkumar, Jose M. Alvarez, Ping Luo
我们呈现SegFormer，这是一种简单，高效但强大的语义分割框架，其统一具有轻量级多层感知MLP解码器的变压器。 SegFormer具有两个吸引力的功能，1 SEGFormer包括一种输出多尺度特征的新型分层结构化变压器编码器。它不需要位置编码，从而避免位置代码的插值，这导致在测试分辨率与训练不同时降低性能。 2 SEGFormer避免复杂的解码器。所提出的MLP解码器聚合来自不同层的信息，从而将本地注意力和全局注意力结合起来呈现强大的表示。我们表明，这种简单轻便的设计是变压器上有效分割的关键。我们缩放了我们的方法，以获得从SegFormer B0到SegFormer B5的一系列型号，比以前的同行达到更好的性能和效率。例如，SegFormer B4在具有64M参数的ADE20K上实现50.3muou，比以前的最佳方法更小，2.2更大。我们最好的型号SegFormer B5，在Citycapes验证集上实现了84.0 miou，并在Citycapes C上显示出优秀的零射击鲁棒性。代码将被释放

MSG-Transformer: Exchanging Local Spatial Information by Manipulating Messenger Tokens
Authors Jiemin Fang, Lingxi Xie, Xinggang Wang, Xiaopeng Zhang, Wenyu Liu, Qi Tian
变压器提供了一种设计神经网络以进行视觉识别的新方法。与卷积网络相比，变压器享有在每个阶段引用全球特征的能力，但注意力模块带来更高的计算开销，阻碍了变压器的应用来处理高分辨率视觉数据。本文旨在减轻效率和灵活性之间的冲突，为此，我们为每个地区提出了一项作为信使消息的专业令牌。因此，通过操纵这些消息令牌，可以在跨区域灵活地交换视觉信息，并且计算复杂性降低。然后，我们将MSG令牌集成到一个名为MSG变压器的多尺度体系结构中。在标准图像分类和对象检测中，MSG变压器实现了竞争性能，加速了GPU和CPU的推断。代码将可用

Adaptive Feature Alignment for Adversarial Training
Authors Tao Wang, Ruixin Zhang, Xingyu Chen, Kai Zhao, Xiaolin Huang, Yuge Huang, Shaoxin Li, Jilin Li, Feiyue Huang
最近的研究表明，卷积神经网络CNN通常容易受到对抗性攻击的影响，这对安全敏感应用构成了威胁。许多对抗防御方法以准确性的成本提高鲁棒性，提高标准和逆势准确性的矛盾。在本文中，我们观察了一个有趣的现象，特征统计数据单调和平稳地改变。攻击力量的上升。基于该观察，我们提出了自适应特征对准AFA，以产生任意攻击强度的特征。我们的方法受过培训，以自动对齐任意攻击强度的功能。这是通过预测双BN架构中的融合重量来完成的。与以前的作品不同，需要重新编制模型或手动调节不同的攻击强度的超参数，我们的方法可以在不引入任何超参数的情况下使用单个模型进行任意攻击强度。重要的是，我们的方法改善了对抗对抗性样本的模型鲁棒性，而不会产生巨大的标准精度损失。 CiFar 10，SVHN和微小想象网数据集的实验表明，我们的方法在广泛的攻击强度下优于现有技术。

Systematic investigation into generalization of COVID-19 CT deep learning models with Gabor ensemble for lung involvement scoring
Authors Michael J. Horry, Subrata Chakraborty, Biswajeet Pradhan, Maryam Fallahpoor, Chegeni Hossein, Manoranjan Paul
Covid 19 Pandemic在全球范围内启发了前所未有的数据收集和计算机视觉建模努力，专注于从医学图像中的Covid 19诊断和分层。尽管有这种大规模的研究工作，但这些模型已经找到了有限的实际应用，部分原因是这些模型的未经证实的概括超出其源研究。本研究通过跨数据集验证，调查关键已发布模型的普遍性，通过跨数据集验证使用公开的Covid 19计算断层扫描数据。然后，我们使用独立的新数据集来评估这些模型的预测能力，用于使用独立的新数据集进行Covid 19肺参与。使用直方图均衡来执行每个帧间数据集研究，并且对比有限的自适应直方图均衡与且没有学习的Gabor滤波器。该研究表明，由于不同的样本图像培养和其他因素的采集过程，在这些数据集训练的模型的泛化方面表现出高的可变性。我们表明，在某些情况下，尽管这些数据集之间的结构差异高达86，但是在某些条件下，内部一致数据集可能会概括为外部数据集。我们最好的表演模式显示了用于独立数据集的肺部参与评分的高预测准确性，可提供专业标记的肺部参与分层。通过使用MIN MAX函数的最佳疾病负面预测模型创建了我们最佳疾病阳性预测的集合，导致肺参与预测的优异模型，平均预测精度为75，零肺参与和96次为75 100肺参与这些分层之间几乎线性关系。

Pho(SC)Net: An Approach Towards Zero-shot Word Image Recognition in Historical Documents
Authors Anuj Rai, Narayanan C. Krishnan, Sukalpa Chanda
在历史文档图像中注释的单词归档，用于Word Image识别目的要求时间和熟练的人力资源，如历史学家，很古图。在现实生活场景中，获取所有可能的单词的样本图像也是不可行的。然而，零拍摄学习方法可以恰当地用于在这种历史文档图像中识别出于词典词的看不见。基于以前的文字方法和识别的方法，我们提出了一种混合表示，其考虑了特征的形状外观，以区分两种不同的单词，并且已经更有效地识别未经说明的单词。该表示已被称为来自PHOC的形状PHO的金字塔直方图，其嵌入了关于单词中字符的发生和位置的信息。后，结合了两个表示，并进行了实验以检查嵌入的嵌入的有效性，其具有PHOS和PHOC的性质。令人鼓舞的结果是在两个公开的历史文档数据集和一个合成手写数据集上获得，这证明了PHOS的功效和组合的PHO SC表示。

Analogous to Evolutionary Algorithm: Designing a Unified Sequence Model
Authors Jiangning Zhang, Chao Xu, Jian Li, Wenzhou Chen, Yabiao Wang, Ying Tai, Shuo Chen, Chengjie Wang, Feiyue Huang, Yong Liu
灵感来自生物进化，我们通过比喻与经过验证的实用进化算法EA的类比，解释了视觉变压器的合理性，并导致它们两者都有一致的数学表示。类似于EA中的动态局部人口，我们改善了现有的变压器结构，并提出了更有效的吃模型，设计任务相关的头来处理不同的任务更灵活。此外，我们将空间填充曲线介绍到电流视觉变压器中以将图像数据序列为均匀的顺序格式。因此，我们可以设计统一的Eat框架来解决多模态任务，从数据格式适应中分离网络架构。与最近的视觉变压器工作相比，我们的方法实现了本领域的状态，而近期视觉变压器的工作相比，具有较小的参数和更高的吞吐量。我们进一步开展多模型任务，以展示统一的饮食的优越性，例如基于文本的图像检索，我们的方法通过CSS数据集的基线通过3.7点提高了3.7点。

Can Attention Enable MLPs To Catch Up With CNNs?
Authors Meng Hao Guo, Zheng Ning Liu, Tai Jiang Mu, Dun Liang, Ralph R. Martin, Shi Min Hu
在5月的第一周，2021年，来自四个不同机构谷歌，清华大学，牛津大学和Facebook的研究人员分享了他们最新工作16,7,12,17

SDNet: mutil-branch for single image deraining using swin
Authors Fuxiang Tan, YuTing Kong, Yingying Fan, Feng Liu, Daxin Zhou, Hao zhang, Long Chen, Liang Gao, Yurong Qian
雨条纹降低了图像质量，严重影响了随后的计算机视觉任务的性能，例如自主驾驶，社会安全等，从给定的多雨图像中移除雨条比具有重要意义。卷积神经网络CNN已广泛用于图像派大任务，然而，卷积操作的局部计算特性限制了图像提供任务的发展。最近，流行的变压器具有全局计算特征，可以进一步促进图像提供任务的发展。在本文中，我们首次将Swin Transformer引入图像派生领域，研究了往返图像派生领域的Swin变压器的性能和潜力。具体而言，我们改进了Swin变压器的基本模块，并设计了三个分支模型来实现单个图像雨拆除。前者实现了基本的雨量模式特征提取，而后者融合了不同的特征以进一步提取和处理图像特征。此外，我们使用跳转连接，融合深度特征和浅景点。在实验方面，现有的公共数据集遭受了图像复制和相对均匀的背景。所以我们提出了一个新的DataSet Rain3000来验证我们的模型。因此，我们提出了一个新的DataSet Rain3000来验证我们的模型。实验结果对公开的数据集Rail100L，Rain100H和我们的数据集Rain3000表明，我们所提出的方法在当前主流单图像雨条纹模型上具有性能和推理速度优势。源代码将可用

Large-Scale Spatio-Temporal Person Re-identification: Algorithm and Benchmark
Authors Xiujun Shu, Xiao Wang, Shiliang Zhang, Xianghao Zhang, Yuanqi Chen, Ge Li, Qi Tian
具有大型空间和时间跨度的情景中的人员RE识别ID尚未完全探索。这部分原因是，现有的基准数据集主要由有限的空间和时间范围收集，例如，使用在校园特定区域的相机中录制的电影。这种有限的空间和时间范围使得很难模拟真实情景中人物的困难。在这项工作中，我们贡献了一个新型大规模时空时间最后一个数据集，包括超过224K图像的10,860个标识。与现有数据集相比，最后一个挑战性和高多样性的Reid设置，以及显着更大的空间和时间范围。例如，每个人都可以出现在不同的城市或国家，并且在各个时隙到夜晚，以及春季到冬季的不同季节。为了我们最好的知识，最后是一个新的人物重新识别数据集，最大的时空范围。基于最后，我们通过对14个RE ID算法进行全面的性能评估来验证其挑战。我们进一步提出了一种易于实现的基线，适用于如此挑战的RE ID设置。我们还验证了最后一次培训的模型可以概括在具有短期和布料变化方案的现有数据集上。我们期望持续激发未来的工作，以更现实和挑战的重新识别任务。有关数据集的更多信息可用

Not All Images are Worth 16x16 Words: Dynamic Vision Transformers with Adaptive Sequence Length
Authors Yulin Wang, Rui Huang, Shiji Song, Zeyi Huang, Gao Huang
视觉变压器在大规模的图像识别中取得了显着的成功。它们将每个2D图像分开到固定数量的补丁中，每个修补程序被视为令牌。通常，表示具有更多令牌的图像将导致更高的预测精度，而它也导致急剧增加的计算成本。为了在准确性和速度之间实现体面的折衷，令牌的数量是经验到16x16的。在本文中，我们认为每个图像都有自己的特点，理想情况下，令牌编号应在每个单独输入上调节。事实上，我们观察到，存在相当数量的简单图像，其可以精确地预测，只有4x4令牌的数量，而只有一小部分硬质需要更精细的表示。灵感来自这种现象，我们提出了一种动态变换器，以自动为每个输入图像配置适当数量的令牌。这是通过将多个变压器级联随着数量的令牌级联，其在测试时间以自适应方式依次激活，即，在产生足够自信的预测后终止推断。我们进一步设计了跨动态变压器的不同组件的高效功能重用和关系重用机制，以减少冗余计算。在Imagenet，CiFar 10和CiFar 100上的广泛经验结果表明，我们的方法在理论计算效率和实际推理速度方面显着优于竞争基础。

Scorpion detection and classification systems based on computer vision and deep learning for health security purposes
Authors Francisco Luis Giambelluca, Marcelo A. Cappelletti, Jorge Osio, Luis A. Giambelluca
在本文中，使用计算机视觉和深层学习技术开发了两种新的自动和实时系统，用于在La Plata City Argentina中发现的两种蝎子。物体检测技术用两种不同的方法实现，Yolo您只需要一下一次和MobileNet，基于蝎子的形状特征。两种模型分别为两种型号实现了88和91的高精度值，以及90和97的高回忆值，这保证了它们可以成功检测蝎子。此外，MobileNet方法已经显示出具有优异的性能，以检测不受控制的环境内的蝎子并执行多种检测。 MobileNet模型还用于图像分类，以便成功地区分危险蝎子TITYU和非危险蝎子，目的是提供健康安全工具。开发了智能手机的应用，具有系统的便携性的优势，可用作应急服务的帮助工具，或用于生物学研究目的。开发系统可以容易地伸展到其他金属和蝎子的种类，以延长可以使用这些应用的区域。

ArtGraph: Towards an Artistic Knowledge Graph
Authors Giovanna Castellano, Giovanni Sansaro, Gennaro Vessio
本文介绍了教师的持续工作，这是一个基于Wikiart和DBPedia的艺术知识图。自动艺术分析从模式识别和计算机视觉社区中看到了越来越多的兴趣。然而，大多数当前工作主要是基于数字化的艺术品图像，有时补充一些元数据和文本评论。一个知识图表，整合了有关艺术家，艺术家，绘画学校等的丰富信息，在统一的结构化框架中可以提供有价值的资源，以便在艺术域中的更强大的信息检索和知识发现工具提供宝贵的资源。

MAOMaps: A Photo-Realistic Benchmark For vSLAM and Map Merging Quality Assessment
Authors Andrey Bokovoy, Kirill Muravyev, Konstantin Yakovlev Federal Research Center for Computer Science and Control of Russian Academy of Sciences
在仿真中运行众多实验是在一个真实机器人上部署控制系统之前的必要步骤。在本文中，我们介绍了一种新颖的基准，该基准旨在定量评估基于视觉的同时定位和映射VSLAM和地图合并算法的质量。基准测试包括数据集和一组自动评估工具。数据集是照片逼真，并提供本地化和地图地面真实数据。这使得不仅可以评估SLAM管道的本地化部分，而是也可以评估映射部分。为了比较VSLAM建造的地图和地面真理，我们介绍了一种新颖的方式来查找它们之间的对应关系，以考虑到最近的邻居等其他方法。基准是ROS兼容性的，并开放到社区。

Urban Traffic Surveillance (UTS): A fully probabilistic 3D tracking approach based on 2D detections
Authors Henry Bradler, Adrian Kretz, Rudolf Mester
城市交通监控UTS是一种基于单眼和校准摄像机的监视系统，可检测城市交通场景中的车辆，这些车辆在多个车道和执行急剧转动的车辆上的车辆上的致密流量。然后，UTS使用3D边界框表示跟踪车辆和依赖于基于无名的卡尔曼滤波器的方法的物理上合理的3D运动模型。由于UTS在三维世界坐标系中恢复位置，形状和运动信息，因此它可以用于识别不同的交通违规或提供具有有价值的交通信息的智能车辆。我们依靠YOLOV3作为探测器，为每个车辆产生2D边界盒和类标签。 2D检测器使我们的系统更加独立于不同的相机视角，随着各种标记的培训数据可用。这允许良好的概括，同时也具有更硬的硬件。基于2D检测的3D跟踪的任务是通过集成关于车辆形状的类特定的现有知识来支持。我们通过使用城市车辆监控设置和标记为3D边界框的数据集的不存在，定量评估UTS使用自我生成的合成数据和来自Carla模拟器的原始事实。此外，我们为UTS在真实世界数据上表现出来的定性印象。我们的实施能够在合理的现代工作站实时运行。据我们所知，UTS是监视情景静态摄像机观察移动目标的唯一3D车辆跟踪系统。

Non-Convex Tensor Low-Rank Approximation for Infrared Small Target Detection
Authors Ting Liu, Jungang Yang, Boyang Li, Chao Xiao, Yang Sun, Yingqian Wang, Wei An
红外小目标检测在许多红外系统中起着重要作用。最近，已经提出了许多红外小型目标检测方法，其中LowRank模型已被用作强大的工具。但是，大多数基于低级的方法为不同的奇异值分配相同的权重，这将导致不准确的背景估计。考虑到不同的奇异值具有不同的重要性，并且应判别处理，本文提出了一种非凸起张量低秩近似NTLA方法，用于红外小目标检测。在我们的方法中，NTLA自适应地将不同的权重分配给不同的奇异值以进行准确背景估计。基于所提出的NTLA，我们使用不对称的空间时间总变化ASTTV来彻底描述背景特征，可以在复杂的场景中实现良好的背景估计和检测。与传统的总变化方法相比，ASTTV利用不同的平滑度强度进行空间和时间正则化。我们开发了一种高效的算法来找到所提出的模型的最佳解决方案。与现有技术的一些状态相比，所提出的方法在不同的评估度量中实现了改进。对合成和实数据的广泛实验证明了所提出的方法在具有低假速率的复杂情况下提供更强大的检测。

VidFace: A Full-Transformer Solver for Video FaceHallucination with Unaligned Tiny Snapshots
Authors Yuan Gan, Yawei Luo, Xin Yu, Bang Zhang, Yi Yang
在本文中，我们调查了从多个低分辨率LR视频快照幻觉的真实高分辨率HR人脸的任务。我们提出了一种纯粹的变压器模型，称为Vidface，以充分利用多个缩略图之间的全系列时空信息和面部结构线索。具体而言，VidFace一次处理多个快照，并一体地利用空间和时间信息，以探索所有帧的面部对齐，从而避免累积对准误差。此外，我们设计了一种复制位置嵌入模块，以配备与面部前沿的变压器，这不仅有效地定期对齐机制，而且还有臭名昭着的预训练。最后，我们从公共VoxceleB2基准测试中策划了一个新的大型视频面幻觉数据集，这挑战了在解决未对齐和微小的脸快照上的现有技术。据我们所知，我们首次尝试开发基于统一的变压器的求解器，以适合基于视频的脸部幻觉。公共视频面基准的广泛实验表明，该方法显着优于现有技术。

The effectiveness of feature attribution methods and its correlation with automatic evaluation scores
Authors Giang Nguyen, Daeyoung Kim, Anh Nguyen
解释人工智能AI模型的决定在许多现实世界，高利益应用中越来越重要。数百来自建议的新功能归因方法，讨论或利用这些工具在工作中。但是，尽管人类是目标最终用户，但大多数归因方法仅在代理自动评估度量上进行评估。在本文中，我们开展了第一个大规模的用户学习，在320个奠定了大规模的用户学习，并在辅助艺术归因方法的有效性上阐明了辅助人类的疗效，斯坦福犬精细粒度分类，以及这两个任务但是当输入图像包含对抗性扰动时。我们发现，总的来说，特征归因令人惊讶地没有更有效，而不是显示人类最近的训练集合例。在精细血粒犬分类的艰苦任务上，向人类呈现归因地图并没有帮助，而是伤害人类AI团队的表现与独处。重要的是，我们发现自动归因地图评估措施与实际人类AI团队表现相关。我们的调查结果鼓励社区在循环应用中的下游人员上严格测试它们的方法，并重新思考现有的评估度量。

Document Domain Randomization for Deep Learning Document Layout Extraction
Authors Meng Ling, Jian Chen, Torsten M ller, Petra Isenberg, Tobias Isenberg, Michael Sedlmair, Robert S. Laramee, Han Wei Shen, Jian Wu, C. Lee Giles
我们呈现文档域随机化DDR，第一次成功转移卷积神经网络CNNS仅在图形呈现伪纸页上培训到现实世界文档分段。 DDR通过建模随机文本和非文本内容的兴趣，使用用户定义的布局和字体样式来支持伪文档页面，以支持联合学习细粒度课程。我们使用我们的DDR方法展示了竞争结果，以从两个域名发布的基准CS 150和论文中提取九个文档类，即计算语言学ACL和IEEE可视化访问协会的年度会议。我们将DDR与风格不匹配的条件进行比较，在现实世界中更容易获得的风格不匹配的条件，更少或更多的噪音样本。我们表明，高保真语义信息不是必需标记语义类，但在火车和测试之间的风格不匹配可以降低模型精度。使用较小的训练样本具有略微不利的效果。最后，当正确的标签稀释令人困惑的标签稀释时，网络模型仍然达到高测试精度这种行为跨越多个类。

Connecting Language and Vision for Natural Language-Based Vehicle Retrieval
Authors Shuai Bai, Zhedong Zheng, Xiaohan Wang, Junyang Lin, Zhu Zhang, Chang Zhou, Yi Yang, Hongxia Yang
车辆搜索是AI市的有效交通管理的基本任务。大多数现有的实践侧重于基于图像的车辆匹配，包括车辆RE识别和车辆跟踪。在本文中，我们应用了一个新的模态，即语言描述，搜索感兴趣的车辆并探索真实世界场景中这项任务的潜力。基于自然语言的车辆搜索对视觉和语言方式的细粒度理解构成了一个新的挑战。要连接语言和愿景，我们建议将艺术视觉模型的状态与变压器基语型号联系起来，以结束以结束的方式。除网络结构设计和培训策略外，在这项工作中还可以获得几个优化目标。定性和定量实验验证了该方法的有效性。我们拟议的方法在第五届AI城市挑战中取得了第1位，在私人试验集上产生了竞争性能18.69瑞士兰德准确性。我们希望这项工作能够为未来使用语言描述而有效而有效地铺平了对现实世界的车辆检索系统的研究。代码将可用

ACNet: Mask-Aware Attention with Dynamic Context Enhancement for Robust Acne Detection
Authors Kyungseo Min, Gun Hee Lee, Seong Whan Lee
计算机辅助诊断最近得到了低成本和时间效率优势的关注。虽然深入学习在最近的痤疮检测成功中发挥了重要作用，但仍有几种挑战，例如通过不一致的照明，尺度变化和高密度分布的颜色移位。为了解决这些问题，我们提出了一个痤疮检测网络，该网络由三个组成，特别是复合特征精制，动态上下文增强和掩码意识到多次重视。首先，复合特征细化集成了语义信息和精细细节以丰富特征表示，这会降低不平衡的照明的不利影响。然后，动态上下文增强控制多尺度特征的不同接收领域，以便上下文增强来处理比例变化。最后，掩模意识到多项注意力通过抑制无色区域并突出可能的痤疮区域来检测密集地安排和小痤疮。实验在痤疮图像数据集ACNE04和自然图像数据集Pascal VOC上进行了实验。我们展示了我们的方法如何实现ACNE04的最新状态，并在Pascal VOC上与先前的现有技术的竞争性能。

Learning Free-Form Deformation for 3D Face Reconstruction from In-The-Wild Images
Authors Harim Jung, Myeong Seok Oh, Seong Whan Lee
作为使用线性基本函数表示3D面的基于3D面的基于3D面的PCA的3D可变模型3DMM已经显示了从野外图像中的单视图重建3D面的有希望的结果。然而，由于3D扫描数量有限和全局线性基础，3DMM具有限制的表示功率。为了解决3DMM的局限性，我们提出了一种基于直接的学习方法，其首次通过自由形式变形FFD重建3D面网。 FFD是一种几何建模方法，它将参考网格嵌入了并行六面板网格内的参考网格，并通过移动网格的稀疏控制点来使网格变形。由于FFD基于数学上定义的基函数，因此它没有限制表示电源。因此，我们可以通过估计控制点作为变形参数的适当偏差来恢复精确的3D面网。虽然3DMM和FFD都是参数模型，但难以预测3DMM参数对面部形状的影响，而FFD的变形参数在其对网格的最终形状的影响方面是可解释的。 FFD的这种实际优势允许产生的网格和控制点作为3D面部建模的良好起点，因为普通用户可以通过广泛使用的3D软件工具微调网状物。多个数据集的实验证明了我们的方法如何成功估计来自2D面部图像的3D面几何形状和面部表达，从而实现了最先进方法的可比性。

Demographic Fairness in Biometric Systems: What do the Experts say?
Authors Christian Rathgeb, Pawel Drozdowski, Naser Damer, Dinusha C. Frings, Christoph Busch
算法决策系统经常被标记为偏见，种族主义，性别歧视，或不受众多媒体网点，组织和研究人员的不公平。有关这些评估是否有理由以及公民和政策制定者是否应该关注的持续辩论。这些和其他相关事项最近在生物识别技术的背景下成为一个热门话题，这些技术在个人，商业和政府应用中无处不在。生物识别学代表了许多监视，访问控制和运营身份管理系统的重要组成部分，从而直接或间接影响全世界数十亿人。

Bounded logit attention: Learning to explain image classifiers
Authors Thomas Baumhauer, Djordje Slijepcevic, Matthias Zeppelzauer
可说明的人工智能是阐明系统的运作，以通过称为解释的合适的侧面信息直接可接受人类认知。我们为卷积图像分类器提供了一个可训练的解释模块，我们称之为Logit Preferns Bla。 BLA模块学习为每个输入实例选择卷积特征映射的子集，然后将其用作分类器的预测的说明。 BLA克服了实例特征选择方法学习的若干限制，以说明Chen等人引入的L2X。 2018年1 BLA规模为现实世界大小的图像分类问题，2 BLA提供了学习可变尺寸解释的规范方式。由于其模块化，BLA借助自行转移学习设置，也可以用作训练分类器的后HOC添加。除了解释性之外，BLA可以用作子集选择的可微差近似的通用方法。在用户学习中，我们发现BLA解释是由流行的毕业凸轮方法产生的解释的优先解释。

Scene-aware Generative Network for Human Motion Synthesis
Authors Jingbo Wang, Sijie Yan, Bo Dai, Dahua LIn
我们在本文中重新审视人类运动综合，一项可用于各种现实世界应用的任务。然而，此前已经为此任务开发了许多方法，而且它们通常有限于专注于姿势的两个方面，同时留下了位置运动，并忽略了环境对人类运动的影响。在本文中，我们提出了一个新的框架，现场与人类运动之间的相互作用。考虑到人为运动的不确定性，我们将这项任务作为一种生成任务，其目的是在现场和人类初始立场上产生条件的合理的人体动作。该框架将人类动作的分为分解成在场景中调节的运动轨迹的分布以及在场景和轨迹的身体构成动态的分布。我们进一步推出了一种基于GaN的学习方法，具有鉴别器来强制执行人类运动和上下文场景以及3D到2D投影约束之间的兼容性。我们评估所提出的方法对两个具有挑战性的数据集的有效性，该数据集涵盖了合成和现实世界环境。

RED : Looking for Redundancies for Data-Free Structured Compression of Deep Neural Networks
Authors Edouard Yvinec, Arnaud Dapogny, Matthieu Cord, Kevin Bailly
尽管涉及相当大的计算成本，但深神经网络DNN在今天的计算机视觉土地Scape中普遍存在。运行时加速的主流方法包括修剪连接非结构化修剪或更好的过滤器结构修剪，既经常需要数据重新列车。在本文中，我们呈现红色，一种无数据结构，统一的方法来解决结构灌注。首先，我们提出了一种新的标量DNN重量分布密度的新型自适应散列，以增加其重量载体表示的相同神经元的数量。其次，我们通过基于它们的相对相似性来利用冗余神经元来修剪网络，如其距离所定义。第三，我们提出了一种新颖的不均匀深度分离技术，以进一步的PRUNE卷积层。我们通过各种各样的基准证明，红色大幅优于其他数据自由修剪方法，通常达到类似于无约束的性能，数据驱动方法。

Driver Intention Anticipation Based on In-Cabin and Driving Scene Monitoring Using Deep Learning
Authors Mahdi Bonyani, Mina Rahmanian, Simindokht Jahangard
为了提高驾驶安全性并避免汽车事故，先进的驾驶员援助系统ADAS显着关注。最近的研究专注于预测驾驶员作为这些系统的关键部分。在本研究中，我们提出了新的框架，其中使用4个输入来预测使用Brain4Cars数据集来预测潜水员机构，并且在实际动作发生之前的5秒，4,3,2,1秒内实现了机动预测。我们在三种情况下使用仅使用1内视图2外部视图和3内部和外部视图进行了三种情况进行了评估。我们将数据集分为训练，验证和测试集，也使用K折叠交叉验证。与最先进的研究相比，我们的架构在第二和第三场景中更快，达到了更高的性能。利用准确性，精确，召回和F1评分作为评估度量，其外视图82.41,82.28,82,42和82.24的结果分别获得了内外视图的外观和98.90,98.96,98.90和98.88。

SN-Graph: a Minimalist 3D Object Representation for Classification
Authors Siyu Zhang, Hui Cao, Yuqi Liu, Shen Cai, Yanting Zhang, Yuanzhan Li, Xiaoyu Chi
使用深度学习技术来处理3D对象已经取得了许多成功。然而，很少有方法侧重于3D对象的表示，这对于特定的任务可能比传统的表示更有效，例如点云，体素和多视图图像。在本文中，我们提出了一个球体节点图Sn图来表示3D对象。具体地，我们从符号距离场SDF中提取一定数量的内部球体作为节点，然后在球体节点中的边缘建立连接以构造图形，这是使用图形神经网络GNN无缝地适合于3D分析的图。在ModelNet40数据集上进行的实验表明，当图表中的节点较少或测试对象任意旋转时，SN图的分类精度明显高于现有技术的状态。

Learning Inductive Attention Guidance for Partially Supervised Pancreatic Ductal Adenocarcinoma Prediction
Authors Yan Wang, Peng Tang, Yuyin Zhou, Wei Shen, Elliot K. Fishman, Alan L. Yuille
胰腺导管腺癌PDAC是美国癌症死亡的第三种最常见的原因。预测PDAC等肿瘤，包括深入学习的医学图像的分类和分割，正在成为一个日益增长的趋势，但通常需要大量的注释数据进行培训，这是非常劳动密集和耗时的造成措施。在本文中，我们考虑了一个部分监督的设置，其中为所有训练数据提供了廉价的图像级注释，并且每个Voxel注释的昂贵的图像级别注释仅适用于它们的子集。我们提出了一种归纳注意导向网络IAG网络，共同学习用于普通PDAC分类的全局图像级分类器和半监控PDAC分段的本地体素级分类器。我们通过多个实例学习MIL实例化全局和本地分类器，其中注意引导粗略地指示PDAC区域的位置，是对基于全球MIL的正常PDAC分类拓宽它们的关键，注意每种实例的重量voxel在米尔池期间，消除了从基于Lipl的Semi监督的PDAC分割的后台的分心，注意引导是归纳，它不仅为训练数据提供了训练数据而没有MIL培训，也是如此实例级别分类器的代理。实验结果表明，与现有技术相比，我们的IAG网将PDAC分割精度提升了5多个以上。

A Protection Method of Trained CNN Model with Secret Key from Unauthorized Access
Authors AprilPyone MaungMaung, Hitoshi Kiya
在本文中，我们提出了一种用秘密密钥集保护卷积神经网络CNN模型的新方法，使得未经授权的用户没有正确的密钥集无法访问培训的模型。该方法使我们不仅可以保护版权侵权行为，而且可以保护模型的功能从未经授权的访问没有任何明显的开销。我们使用秘密密钥设置介绍三个块明智的变换，以生成可学习的转换图像像素混洗，负正变换和FFX加密。通过使用变换图像培训受保护的型号。使用CiFar和Imagenet数据集的实验结果表明，当键集正确时，保护模型的性能接近非保护型号的性能，而在给出不正确的键集时，则在给出不正确的键时严重丢弃的准确性。保护的模型也被证明对各种攻击具有稳健性。与Passports的最先进的模型保护相比，该方法在网络中没有任何额外的层，因此，培训和推理过程中没有开销。

Bio-inspired visual attention for silicon retinas based on spiking neural networks applied to pattern classification
Authors Am lie Gruel, Jean Martinet
可视注意可以定义为选择性地关注感觉线索的离散方面的行为和认知过程，同时忽略其他可获得的信息。这种生物机制，更具体地持续检测，长期以来已经在多媒体索引中使用，仅在图像或视频的相关部分驱动分析以进行进一步处理。

A Study On the Effects of Pre-processing On Spatio-temporal Action Recognition Using Spiking Neural Networks Trained with STDP
Authors El Assal Mireille, Tirilly Pierre, Bilasco Ioan Marius
近年来对尖刺神经网络越来越兴趣。 SNNS被视为针对图案识别的ANN的瓶颈的假设解决方案，例如能效。但是，目前的方法如ANN到SNN转换和反向传播不充分利用这些网络，并且尚未达到与先进人工神经网络相当的成功。研究SNNS培训的SNNS的行为非常重要，这些方法如视频分类任务的峰值定时依赖塑性STDP，包括使用尖峰模拟运动信息的机制，因为此信息对于视频理解至关重要。本文介绍了将时间信息传输到静态格式的多种方法，然后使用延迟编码将视觉信息转换为尖峰。这些方法与早期和晚期融合的两种类型的时间融合配对，并且用于帮助尖峰神经网络捕获来自视频的时空特征。在本文中，我们依靠用STDP培训的卷积尖峰神经网络的网络架构，并在用动作识别任务挑战时测试该网络的性能。了解尖峰神经网络如何响应不同的运动提取方法，表示可以帮助降低SNN和ANN之间的性能差距。在本文中，我们展示了与尖峰神经网络的某些动作的形状和速度的相似性的影响，与他人相比，我们还突出了一些方法的有效性。

Controllable Person Image Synthesis with Spatially-Adaptive Warped Normalization
Authors Jichao Zhang, Aliaksandr Siarohin, Hao Tang, Jingjing Chen, Enver Sangineto, Wei Wang, Nicu Sebe
可控人物图像生成旨在产生具有理想的属性的现实人类图像，例如，给定的姿势，布纹理或发型。然而，源和目标图像之间的大空间错位使图像的标准架构成为图像转换不适合此任务。最艺术架构的大多数状态避免了在生成期间的对准步骤，这导致许多伪像，尤其是具有复杂纹理的人物图像。为了解决这个问题，我们介绍了一种新型空间自适应翘曲标准化锯，这集成了学习流场来扭曲调制参数。这使我们能够有效地对准人的空间自适应样式。此外，我们提出了一种新颖的自我训练部件替代策略，以优化纹理转移任务的预磨损模型，显着提高了所产生的布料的质量和不相关地区的保存能力。我们对广泛使用的Deepfashion DataSet的实验结果表明，在姿势转移和纹理转移任务的最先进方法中提出了该方法的显着改进。

Semi-orthogonal Embedding for Efficient Unsupervised Anomaly Segmentation
Authors Jin Hwa Kim, Do Hyeong Kim, Saehoon Yi, Taehoon Lee
我们提出了针对无监督异常分割的半正交嵌入的效率。最近预训练的CNN的多尺度特征最近用于局部的Mahalanobis距离，具有显着性能。然而，增加的特征大小对于较大的CNN表示成分，因为它需要多维协方差张量的批量逆。在这里，我们概括了Ad Hoc方法，随机特征选择，进入半正交嵌入，以实现鲁棒近似，立方地降低多维协方差张量的逆的计算成本。随着审查研究的审查，所提出的方法为MVTEC AD，Kolektorsdd，Kolektorsdd2和MSTC数据集具有显着的边缘，实现了最重要的边缘。理论和实证分析提供了洞察力和验证我们直接但具有成本效益的方法。

Dual-stream Network for Visual Recognition
Authors Mingyuan Mao, Renrui Zhang, Honghui Zheng, Peng Gao, Teli Ma, Yan Peng, Errui Ding, Shumin Han
具有显着全局表示能力的变压器实现了视觉任务的竞争结果，但未能考虑输入图像中的高级本地模式信息。在本文中，我们介绍了一款通用双流网络DS网络，以完全探索图像分类的本地和全局模式特征的表示容量。我们的DS网可以同时计算细粒度和集成功能，并有效地保险熔断它们。具体地，我们提出了一个帧内比例传播模块来处理每个块中的两种不同的分辨率和帧间比赛对准模块，以在双尺度处执行跨特征的信息交互。此外，我们还设计了一种双流FPN DS FPN，以进一步增强下游密集预测的上下文信息。如果没有钟声和口哨，所提出的DS净优于Deit小于Imagenet 1K的前1个精度，并在其他视觉变压器和Resnets上实现了最新的现有性能。对于对象检测和实例分割，DS Net小于Mscoco 2017上的MAP方面的Reset 50分别以6.4和5.5优于6.4和5.5，并且超越了先前的技术方案的状态，这显着证明其潜力在视觉任务中成为一般骨干。代码将很快发布。

Transferable Sparse Adversarial Attack
Authors Ziwen He, Wei Wang, Jing Dong, Tieniu Tan
深神经网络已经表现出对对抗性攻击的脆弱性。在本文中，我们专注于基于ELL 0规范约束的稀疏对抗性攻击，这可以通过仅修改几个图像的几个像素来成功。尽管存在高攻击成功率，但由于目标模型过度的原因，现有稀疏攻击方法在黑匣子协议下实现了低的可转换性。因此，我们引入发电机架构来缓解过度装备问题，从而有效地加工可转移的稀疏对抗性示例。具体地，发电机将稀疏的扰动与幅度和位置部件分离。我们仔细设计了一个随机量化操作员，以结束以结束的方式共同优化这两个组件。实验表明，与现有方法的状态相比，我们的方法在类似的稀疏环境下通过大的余量提高了可转移性。此外，我们的方法达到了卓越的推理速度，比其他基于优化的方法快700倍。代码可用

1$\times$N Block Pattern for Network Sparsity
Authors Mingbao Lin, Yuchao Li, Yuxin Zhang, Bohong Chen, Fei Chao, Mengdi Wang, Shen Li, Jun Yang, Rongrong Ji
虽然网络稀疏作为克服神经网络大小的有希望的方向，但它仍然是保持模型准确性的开放问题，并在一般CPU上实现了显着的加速。在本文中，我们提出了一个新颖的1次块稀疏模式块修剪的概念，以破坏这个限制。特别地，具有相同输入信道索引的连续N个输出核被分组成一个块，其用作我们修剪模式的基本修剪粒度。我们的1次稀疏模式剪切这些块被认为不重要。我们还提供了过滤器重新排列的工作流程，首先重新排列输出通道维度中的重量矩阵，以获得更具影响力的块以获得精度改进，然后将相似的重新排列到输入通道维度中的下一个层权重，以确保正确的卷积操作。此外，可以通过并行化块方向矢量化操作来实现我们的1倍N块稀疏之后的输出计算，从而在基于CPU的平台上的显着加速。在ILSVRC 2012的实验中证明了我们修剪模式的疗效。例如，在50个稀疏性和N 4的情况下，我们的模式在MobileNet V2的前1个精度的过滤器修剪中获得了约3.0的改进。同时，它在Cortex A7 CPU上获得56.04ms推断，超过体重修剪。代码可用

Training Domain-invariant Object Detector Faster with Feature Replay and Slow Learner
Authors Chaehyeon Lee, Junghoon Seo, Heechul Jung
在基于深度学习的对象检测中遥感域，滋扰因子，影响观察到的变量，而不会影响预测变量，通常是重要的，因为它们会导致域变化。以前，提出了滋扰分解功能转换NDFT，以构建域不变特征提取器，具有滋扰因子。然而，NDFT需要在训练阶段的巨大时间，因此它已经不切实际。在本文中，我们介绍了我们提出的方法，一个NDFT，这是对NDFT的改进。 ndft利用两个加速技术，特征重播和慢学习者。因此，在大规模的UAVDT基准测试中，显示我们的框架可以将NDFT的培训时间从31小时减少到3小时，同时仍然保持性能。该代码将在线公开提供。

Long-term Person Re-identification: A Benchmark
Authors Peng Xu, Xiatian Zhu
现有人重新识别RE ID主要考虑假期衣服和个人外观的短期搜索问题。然而，在RealWorld中，我们经常穿着不同地穿过各地，时间，日期，季节，天气和活动。因此，现有方法不适合涉及衣服的长期人员重新ID。虽然有几个最近的Longterm RE ID尝试，但是具有衣服变化的大型现实数据集缺乏和必不可少的，以便在短期重新识别设置中已经经历了广泛的研究。在这项工作中，我们提供了一个庞大的现实长期人物重新识别基准。它由来自1.1K人身份的171K限定盒组成，收集和建造在12个月的过程中。这个数据集的独特特性包括1个天然的本地个人外观，例如，衣服和发型变化，衣服变化的变化和梳妆风格都是高度多样化的，随着时间的推移，几小时，数小时，几个月的重新出现差距。季节，岁月。 2各种年龄和职业的各种生活人员在不同的天气条件下出现在不同的天气条件下。，晴朗，多云，刮风，多雨，斯诺伊，极度寒冷和活动，例如，工作，休闲，日常活动。 3丰富的相机设置原始视频由17个户外安全摄像头记录，具有各种在真实世界监控系统中运行的各种分辨率，适用于宽和密集的块。与替代数据集相比，4最大尺度占据最大数量的17个摄像机，1082个标识和171K边界框。

Know Your Surroundings: Panoramic Multi-Object Tracking by Multimodality Collaboration
Authors Yuhang He, Wentao Yu, Jie Han, Xing Wei, Xiaopeng Hong, Yihong Gong
在本文中，我们专注于自动驾驶和机器人导航的多目标跟踪MOT问题。大多数现有的MOT方法使用奇异的RGB摄像机跟踪多个对象，这易于摄像机视野，并且由于背景夹斗和较差的光线而受到复杂场景中的跟踪故障。为满足这些挑战，我们提出了一种多层性的全景多目标跟踪框架MMPAT，其将2D全景图像和3D点云作为输入，然后使用多模数据提供目标轨迹。所提出的方法包含四个主要模块，全景图像检测模块，多模数据融合模块，数据关联模块和轨迹推断模型。我们评估了JRDB数据集上的提出方法，其中MMPAT在检测和跟踪任务中实现了最佳性能，并分别通过大型余量15.7和8.5改善了AP和MOTA方面的最佳状态。

Image-to-Video Generation via 3D Facial Dynamics
Authors Xiaoguang Tu, Yingtian Zou, Jian Zhao, Wenjie Ai, Jian Dong, Yuan Yao, Zhikang Wang, Guodong Guo, Zhifeng Li, Wei Liu, Jiashi Feng
我们为来自静止图像的各种视频生成任务提供了一个多功能的模型。来自单个面部图像的视频生成是一个有趣的问题，并且通常通过利用生成的对抗性网络GAN来集成来自输入面部图像的信息和一系列稀疏面部地标的信息。然而，由于面部地标的弱表示能力，所产生的面部图像通常遭受质量损失，图像失真，身份变化和表达不匹配。在本文中，我们建议根据重建的3D面部动态从单个面部图像中想象一下来自单个面部图像的面部视频，旨在产生逼真的保存面视频，具有精确预测的姿势和面部表情。 3D动态揭示了面部表情和运动的变化，并且可以作为引导高度现实的脸部视频生成的强大知识。特别地，我们探索面部视频预测并利用精心设计的3D动态预测网络来预测单个面部图像的3D动态序列。然后通过稀疏纹理映射算法进一步呈现3D动态，以恢复用于生成面部帧的结构细节和稀疏纹理。我们的模型对于各种AR VR和娱乐应用程序来说是多功能的，例如面部视频重新定位和面部视频预测。优越的实验结果表明它在产生高保真，身份保存和来自单个源人面部图像的视觉上令人愉快的面部视频剪辑方面的有效性。

DAAIN: Detection of Anomalous and Adversarial Input using Normalizing Flows
Authors Samuel von Bau nern, Johannes Otterbach, Adrian Loy, Mathieu Salzmann, Thomas Wollmann
尽管最近的工作最近，但检测分销的投入和对抗的攻击AA用于计算机视觉模型仍然是一项挑战。在这项工作中，我们介绍了一种新颖的技术，延展，以检测统一设置中的图像分割的OOD输入和AA。我们的方法监控神经网络的内部工作，并学习激活分布的密度估计器。我们用分类头装备密度估计器以区分常规和异常的输入。为了处理典型分割网络的高维激活空间，我们将它们分配以获得均匀的空间和层面覆盖。每个受监视的模型选择了一次分布格式，并保持针对所有输入固定。由于攻击者无法访问检测模型和采样密钥，因此攻击分割网络变得越难，因为攻击不能通过检测器反击。我们展示了我们的方法的有效性使用CityCapes DataSet培训的ESPNET作为分割模型，将流量的仿射归一化为密度估计器，并使用蓝色噪声来确保均匀采样。我们的模型可以在单个GPU上培训，使其在不需要专门的加速器的情况下计算高效和可部署。

Non-local Patch-based Low-rank Tensor Ring Completion for Visual Data
Authors Yicong He, George K. Atia
张量完成是估计部分观察到的张量的缺失条目的问题，具有一定的低等级结构。它通过捕获此类数据的额外结构信息来提高图像和视频数据的矩阵完成。利用涉及张量结构的更固有的信息而不是矩阵，与矩阵完成相比，张量完成表现出更好的性能，尤其是在图像和视频数据中。传统的完井算法将整个视觉数据视为张量，这可能并不总是很好地工作，特别是当相机或对象运动存在时。在本文中，我们开发了一种新型非本地贴剂的张力环完成算法。在所提出的方法中，沿着视觉数据的空间和时间域的每个参考贴片提取类似的补丁。然后将收集的贴片形成为高阶张量并且提出了张量环完成算法以恢复完成的张量。还提出了一种新的基于间隔采样的块匹配ISBM策略和混合完成策略，以提高效率和准确性。此外，我们开发基于在线补丁的完成算法，以处理流式视频数据。提出了一个有效的在线张力环完成算法，以减少时间成本。广泛的实验结果表明，与现有技术的状态相比，所提出的算法的优异性能。

Identity and Attribute Preserving Thumbnail Upscaling
Authors Noam Gat, Sagie Benaim, Lior Wolf
我们考虑将一个人的低分辨率缩略图图像提升到更高分辨率图像的任务，这保留了人的身份和其他属性。由于缩略图图像具有低分辨率，因此存在许多更高分辨率的版本。以前的方法产生了不保留人的身份或偏置解决方案的解决方案，例如主要的白种人面孔。我们通过首次增强特征提取器来更好地捕获面部身份，诸如微笑或不竞争等的面部属性来解决现有的歧义，并使用此特征提取器生成高分辨率保存的高分辨率图像以及竞争中的条件面部属性。我们的结果表明面部相似度识别和Loeskapique的改善以及生成更高分辨率图像的能力，其保留输入缩略图标识并且维护其种族和属性。

Polygonal Point Set Tracking
Authors Gunhee Nam, Miran Heo, Seoung Wug Oh, Joon Young Lee, Seon Joo Kim
在本文中，我们提出了一种基于学习的多边形点集跟踪方法。与传播像素明智的对象掩码信息的现有视频对象分段VOS方法相比，我们传播了在帧上的多边形点。

StyTr^2: Unbiased Image Style Transfer with Transformers
Authors Yingying Deng, Fan Tang, Xingjia Pan, Weiming Dong, ChongyangMa, Changsheng Xu
图像样式传输的目标是渲染具有在保持原始内容的风格参考引导的艺术功能的图像。由于CNN中的局部性和空间不变性，难以提取和维护输入图像的全局信息。因此，传统的神经样式转移方法通常是偏置的，并且可以通过使用相同的参考样式图像运行多次的样式转移过程来观察到内容泄漏。为了解决这一关键问题，我们通过提出基于变压器的方法来考虑输入图像的长距离依赖性，即STYTR 2。与其他视觉任务的可视变压器相比，我们的Stytr 2包含两个不同的变压器编码器。为内容和样式生成域特定序列。在编码器之后，采用多层变压器解码器根据样式序列式化内容序列。此外，我们分析了现有位置编码方法的缺陷，并提出了尺度不变的内容感知位置编码斗篷，更适合于图像样式传输任务。定性和定量实验证明了所提出的STYTR 2的有效性与基于FNN的技术和基于流动的方法的状态相比。

Multiscale IoU: A Metric for Evaluation of Salient Object Detection with Fine Structures
Authors Azim Ahmadzadeh, Dustin J. Kempton, Yang Chen, Rafal A. Angryk
通用对象检测算法经常忽略检测到的对象的精细结构。这可以追溯到其所提出的区域的评估方式。我们的目标是在这些算法的一般性之间重新协商折衷及其粗略检测。在这项工作中，我们提出了一种新的公制，它是一个流行评估度量的婚姻，即与联盟iou交叉口和几何概念，称为分形维度。我们提出了MultiScale iou Miou，它可以在多个分辨率级别的检测到的和地面真实区域之间进行比较。通过几种可重复的例子，我们表明Miou对IOU和F1得分完全忽略的细边界结构确实敏感。通过将其分布与IOO的综合和真实世界数据集的分布进行比较，我们进一步研究了Miou的整体可靠性。我们打算重新开始探索对象检测算法的新评估方法。

Attention Based Semantic Segmentation on UAV Dataset for Natural Disaster Damage Assessment
Authors Tashnim Chowdhury, Maryam Rahnemoonfar
气候变化的不利影响包括世界各地的更强大和更具破坏性的飓风。识别包括建筑物和道路在内的区域的不同损坏结构是至关重要的，因为它有助于救援队伍规划他们的努力，以最大限度地减少自然灾害的损害。语义分割有助于识别图像的不同部分。我们在高分辨率UAV数据集中实现了基于自我的语义分段模型，并在测试集上获得了大约88的平均IOU分数。结果激发了自然灾害损伤评估中的自我注意计划，这将挽救人类的生命并减少经济损失。

Longer Version for "Deep Context-Encoding Network for Retinal Image Captioning"
Authors Jia Hong Huang, Ting Wei Wu, Chao Han Huck Yang, Marcel Worring
自动生成视网膜图像的医疗报告是有助于眼科医生减少工作量的有希望的方法之一，提高工作效率。在这项工作中，我们提出了一个新的上下文驱动编码网络，以自动生成视网膜图像的医疗报告。所提出的模型主要由多模态输入编码器和融合特征解码器组成。我们的实验结果表明，我们所提出的方法能够有效地利用输入图像和上下文之间的交互信息，即在我们的情况下。该方法为视网膜图像创造了更准确和有意义的报告，而不是基线模型，实现了最新的性能状态。此表现在医疗报告生成任务BLEU AVG 16，Cider 10.2和Rouge 8.6中有几个常用的指标。

Unsupervised Joint Learning of Depth, Optical Flow, Ego-motion from Video
Authors Jianfeng Li, Junqiao Zhao, Shuangfu Song, Tiantian Feng
估计诸如深度，相机运动和来自图像的光流的几何元素是机器人的视觉感知的重要组成部分。我们使用联合自我监督方法来估计三个几何元素。深度网络，光学流量网络和相机运动网络彼此独立，但在训练阶段期间共同优化。与独立培训相比，联合培训可以充分利用几何元素之间的几何关系，并提供场景的动态和静态信息。在本文中，我们改善了三个方面的网络结构，动态对象分割和几何约束的联合自我监督方法。在网络结构方面，我们将注意力机制应用于相机运动网络，这有助于利用帧之间相机运动的相似性。并根据变压器的注意机制，我们提出了一个插头和卷积卷积注意模块。在动态对象方面，根据动态对象在光流自我监督框架和深度姿势自我监督框架中的不同影响，我们提出了一种阈值算法来检测动态区域，分别在损耗功能中的掩模。就几何约束而言，我们使用传统方法来估计来自相应点的基本矩阵来限制相机运动网络。我们展示了我们对基蒂数据集的方法的有效性。与其他联合自我监督方法相比，我们的方法在姿势和光学流程估计中实现了现有性能的状态，并且深度估计也实现了竞争结果。代码将可用

Knowledge Transfer for Few-shot Segmentation of Novel White Matter Tracts
Authors Qi Lu, Chuyang Ye
基于扩散磁共振成像DMRI，卷积神经网络CNNS对白体WM道分割的最佳性能进行了态度。这些CNN需要大量的手动划分的WM感兴趣的培训，这通常是劳动密集型和昂贵的。昂贵的手动描绘可以是当新的Wm龟头，即未被列入现有手动描绘中的狭窄的特定缺点。为了准确地分割新型WM派，期望转移关于现有WM派的知识，使得即使只有几个小型WM派对的划分，CNN也可以为分割充分学习。在本文中，我们探讨了这些知识转移到几个拍摄环境中的新型WM派的分割。虽然可以用于此目的的经典精细调谐策略，但是完全丢弃了用于分割现有WM派的最后一个任务特定层中的信息。我们假设该最后一层的重量可以承受用于分割新型WM派的宝贵信息，从而完全丢弃信息不是最佳的。特别是，我们假设新型WM暗型可以与现有的WM暗影相关，并且可以通过现有WM派的注射来预测新型WM派的分割。以这种方式，可以实现比随机初始化的更好初始化以进行微调。此外，我们表明，通过在经典精细调谐之前简单地插入预热阶段，可以方便地实现更自适应地使用用于分割现有的WM散射的关于分割的现有WM派的知识。在公开的DMRI数据集中评估了所提出的方法，在那里我们展示了我们对新型WM散发的几次分割的方法的益处。

Towards Diverse Paragraph Captioning for Untrimmed Videos
Authors Yuqing Song, Shizhe Chen, Qin Jin
视频段标题旨在用描述性段落描述未限制视频中的多个事件。现有方法主要解决两个步骤事件检测中的问题，然后是事件标题。这两种步骤的方式使得产生的段落的质量高度依赖于事件提案检测的准确性，这已经是一个具有挑战性的任务。在本文中，我们提出了一个段落标题模型，其避开了有问题的事件检测阶段，直接为未经监测视频生成段落。为了描述连贯和多样化的事件，我们建议提高具有动态视频存储器的传统时间关注，逐步暴露新的视频特征并抑制访问的视频内容以控制模型的视觉焦点。此外，提出了一种多样性驱动培训策略，以改善语言观点的段落的多样性。考虑到未经监控的视频通常包含大量但冗余的帧，我们进一步增强了视频编码器，具有关键帧的认识来提高效率。在ActivityNet和Charades数据集上的实验结果表明，我们的建议模型在不使用任何事件边界注释的情况下显着优于最精确和分集度量的最新状态。代码将被释放

Learning Personal Style from Few Examples
Authors David Chuan En Lin, Nikolas Martelaro
设计工作中的一个关键任务是掌握客户的隐式品味。设计人员通常根据客户端的一组示例执行此操作。然而，识别许多交错变量的常见模式，例如颜色，纹理和布局以及将它们合成成综合偏好可能是具有挑战性的。在本文中，我们利用计算模型的模式识别能力来帮助完成这项任务。我们提供一系列原则，用于计算私种风格。这些原则表现在伪仪器中，这是一个深入的学习框架，其仅从少数示例中学习个人图形设计风格的计算模型。在几个实验中，我们发现伪仪，只有五个正面和负面例子，优于几种替代方法，实现了79.40的精度。最后，我们讨论伪电压如何用作构建块以支持未来设计应用的开发。

EPSANet: An Efficient Pyramid Split Attention Block on Convolutional Neural Network
Authors Hu Zhang, Keke Zu, Jian Lu, Yuru Zou, Deyu Meng
最近，已经证明，通过将注意力模块嵌入到它中，可以有效地改善了深度卷积神经网络的性能。在这项工作中，提出了一种新颖的轻质和有效的注意方法，名为金字塔拆分PSA模块。通过在Reset的瓶颈块中用PSA模块替换3x3卷积，获得了一个名为高效金字塔分裂注意EPSA的新型代表块。可以轻松地将EPSA块作为插头添加到良好的骨干网络中，并可以实现模型性能的显着改进。因此，通过堆叠这些Reset样式EPSA块，在这项工作中开发了一个名为EPSANET的简单有效的骨干架构。相应地，可以由所提出的电子视觉任务提供更强大的多尺度表示能力，包括但不限于图像分类，对象检测，实例分段等，没有响铃和吹口哨，所提出的epsanet的性能大多数最先进的渠道注意方法。与Senet 50相比，在ImageNet数据集中通过1.93提高了前1个精度，获得了对象检测的2.7盒AP的更大余量，并且通过在MS Coco数据集上使用掩模RCNN来改进1.7掩模AP。。我们的源代码可用

Transformer-Based Deep Image Matching for Generalizable Person Re-identification
Authors Shengcai Liao, Ling Shao
变压器最近在计算机视觉中获得了越来越高的关注。然而，现有研究大多使用变压器来学习特征表示学习，例如，用于图像分类和密集预测。在这项工作中，我们进一步调查了对图像匹配和度量学习的图像匹配和度量学习的可能性。我们发现视觉变压器Vit和带解码器的Vanilla变压器由于其缺乏形象而对图像匹配而不足以适用于图像匹配。因此，我们进一步设计了两种天真的解决方案，即在VITLA变压器中的vit和查询画廊的查询画廊串联。后者提高了性能，但仍然有限。这意味着变压器中的注意机制主要用于全局特征聚合，这不是自然适合于图像匹配的。因此，我们提出了一种新的简化解码器，它可以使用SoftMax加权丢弃全部注意力实现，只能保持查询密钥相似性计算。此外，全局最大池和多层Perceptron MLP头应用于解码匹配结果。这样，简化的解码器在计算上更有效，而同时对图像匹配更有效。所提出的方法，称为传输函数，在概括的人物RE识别中实现了最新性能的状态，在几个流行的数据集中分别在秩1中的秩1和映射中最多可达6.1和5.7性能。本研究的源代码将公开可用。

Rethinking the constraints of multimodal fusion: case study in Weakly-Supervised Audio-Visual Video Parsing
Authors Jianning Wu, Zhuqing Jiang, Shiping Wen, Aidong Men, Haiying Wang
对于多模式任务，良好的特征提取网络应尽可能提取信息，并确保提取的特征嵌入和其他模态特征嵌入具有出色的相互理解。后者在特征融合中通常比前者更为关键。因此，选择最佳特征提取网络搭配是多模式任务中的一个非常重要的子问题。大多数现有研究都忽略了这个问题或采用遍历方法。此问题在本文中建模为优化问题。提出了一种新的方法，将优化问题转换为比较上限的问题，通过参考数学中极值转换的一般实践。与传统方法相比，它降低了时间成本。

Gaze Estimation using Transformer
Authors Yihua Cheng, Feng Lu
最近的工作已经证明了变压器在许多计算机视觉任务中的有效性。然而，凝视估计中的变压器的性能仍未开发。在本文中，我们采用了变压器并评估了他们对凝视估计的有效性。我们考虑两种形式的视觉变压器，纯变压器和混合变压器。我们首先遵循流行的VIT，采用纯变压器来估计图像的凝视。另一方面，我们保留了卷积层并将CNNS整合以及变压器。变压器用作补充CNN的组件。我们比较两个变压器在凝视估计中的性能。混合变压器在所有评估数据集中显着优于纯变压器，具有较少的参数。我们进一步开展实验，以评估混合变压器的有效性，并探讨自我注意机制的优势。实验表明，混合动力变压器可以在所有基准中实现最先进的性能

VersatileGait: A Large-Scale Synthetic Gait Dataset Towards in-the-Wild Simulation
Authors Pengyi Zhang, Huanzhang Dou, Wenhu Zhang, Yuhan Zhao, Songyuan Li, Zequn Qin, Xi Li
步态认可近年来迅速发展。然而，野外的步态表彰并不熟悉。从内在和外在因素的角度来看，可以归因于缺乏多样化的培训数据。要解决此问题，我们建议在可控计算机仿真的帮助下构建大规模的步态数据集。详细介绍了步态的内在因素，我们生成了多种属性的许多角色，并以各种类型的步行方式赋予它们。为了多样化步态的外在因素，我们用密集的相机布局构建复杂的场景。最后，我们在UNITY3D下设计自动化生成工具包，用于模拟步行场景并自动捕获步态数据。结果，我们在野生步态数据集中获得了一个称为百万缕头，其具有超过1000百万个主题的剪影序列，具有不同的情景。 Versatilegait拥有几个很好的特性，包括巨大的数据集大小，不同的行人属性，复杂的相机布局，高质量的注释，具有真实的域间隙，新需求的良好可扩展性，无隐私问题。基于多功能性，我们提出了一系列的实验和应用，可用于野外和实际应用中的步态研究探索。我们的数据集及其相应的一代工具包将公开可供进一步研究。

Data-driven 6D Pose Tracking by Calibrating Image Residuals in Synthetic Domains
Authors Bowen Wen, Chaitanya Mitash, Kostas Bekris
跟踪视频序列中的6D对象的姿势对于机器人操纵很重要。这项工作提出了SE 3 TrackNet，是长期的数据驱动优化方法，6D姿态跟踪。它旨在确定当前RGB D观察和在先前最佳估计和对象S模型上的合成图像的最佳相对姿势。在此上下文中的主要贡献是一种新型神经网络架构，其适当地解除特征编码，以帮助减少域移位，以及通过Lie代数的有效的3D方向表示。因此，即使网络仅与合成数据训练，也可以通过真实图像有效地工作。在多个基准上的综合实验显示SE 3 TrackNet可以始终如一地实现强大的估计和优于替代方案，即使它们已被真实图像培训。该方法在90.9Hz的实时运行。此项目的代码，数据和补充视频可供选择

Beyond the Spectrum: Detecting Deepfakes via Re-Synthesis
Authors Yang He, Ning Yu, Margret Keuper, Mario Fritz
过去几年的深度生成模型的快速进步导致了高度现实的媒体，被称为德国，通常与人类的眼睛难以区分。这些进展使视觉数据的真实性越来越困难，并且对视觉内容的可信度构成错误信息威胁。虽然最近的工作表明了这种德国的较强的检测准确性，但成功依赖于识别所生成的图像中的频率伪像，这不会产生可持续的检测方法，因为生成模型继续发展和关闭真实图像的间隙。为了克服这个问题，我们提出了一种新的假检测，旨在重新综合测试图像并提取视觉提示进行检测。 RE合成程序是灵活的，允许我们纳入一系列视觉任务，我们采用超级分辨率，去噪和着色作为RE合成。我们展示了在涉及Celeba HQ，FFHQ和LSUN数据集的多个发电机的各种检测场景中提高了我们方法的效果，交叉GaN泛化和对我们方法的扰动。源代码可用

BAAI-VANJEE Roadside Dataset: Towards the Connected Automated Vehicle Highway technologies in Challenging Environments of China
Authors Deng Yongqiang, Wang Dengjiang, Cao Gang, Ma Bing, Guan Xijia, Wang Yajun, Liu Jianchao, Fang Yanming, Li Juanjuan
随着路边感知在连接的自动化车辆公路骑车技术中起着越来越重要的作用，即将有具有挑战性的现实世界路边数据集进行挑战性的基准标记和培训各种计算机视觉任务，如2D 3D对象检测和多传感器融合。在本文中，我们首先介绍了一个充满挑战的Baai Vanjee路边数据集，该数据集包括vanjee智能基站收集的LIDAR数据和RGB图像，该地站大约4.5米。此数据集包含2500帧的LIDAR数据，5000帧RGB图像，包括同时收集的20。它还包含12类对象，74K 3D对象注释和105K 2D对象注释。通过提供一个真正的城市交叉路口和公路场景，我们预计Baai Vanjee Road DataSet将积极协助学术界和工业界，加快大数据时代智能交通领域的创新研究和成就转变。

Three-dimensional multimodal medical imaging system based on free-hand ultrasound and structured light
Authors Jhacson Meza, Sonia H. Contreras Ortiz, Lenny A. Romero, Andres G. Marrugo
我们提出了一种三维3D多模式医学成像系统，其在单个坐标系中结合自由手中的超声波和结构光3D重建而不需要注册。据我们所知，这些技术尚未以多峰成像技术组合在一起。该系统补充了超声波获得的内部3D信息，用结构光技术测量外表面。此外，基于卷积神经网络实现了用于姿势估计的超声探头S光学跟踪。实验结果表明系统的高精度和再现性，以及其术前和术中应用的潜力。实验多模式误差或从不同方式获得的两个表面的距离为0.12mm。代码可用作GitHub存储库。

Foveal-pit inspired filtering of DVS spike response
Authors Shriya T.P. Gupta, Pablo Linares Serrano, Basabdatta Sen Bhattacharya, Teresa Serrano Gotarredona
在本文中，我们呈现了基于高斯坑滤波器的污水坑启发差异的视网膜模型处理动态视觉传感器DVS记录的动态视觉传感器DVS录制的结果。通过在恒定速度下水平移动的不同空间频率的不同空白和黑条刺激DVS传感器。 DVS传感器产生的输出尖峰作为输入到由灵长类动物视野的接收场结构的一组狗滤波器应用。特别地，这些过滤器模仿了亚源性视网膜的侏儒和遮阳伞神经节细胞的接受领域，该视网膜的神经元亚用于污水坑的照片受体。用心脏凹坑模型提取的特征用于使用具有适于尖刺神经网络的背部衰减变体训练的尖刺卷积神经网络进一步分类。

A Spectral-Spatial-Dependent Global Learning Framework for Insufficient and Imbalanced Hyperspectral Image Classification
Authors Qiqi Zhu, Weihuan Deng, Zhuo Zheng, Yanfei Zhong, Qingfeng Guan, Weihua Lin, Liangpei Zhang, Deren Li
深度学习技术已被广泛应用于高光谱图像HSI分类，并取得了巨大的成功。然而，深度神经网络模型具有大的参数空间并且需要大量标记的数据。 HSI分类的深度学习方法通常遵循剪辑学习框架。最近，根据全局空间上下文信息，提出了一个快速补丁免费全球学习FPGA架构。然而，当样本数据不平衡时，FPGA难以提取最差异的特征。本文提出了一种基于全球卷积长短短期记忆GCL和全局关注机制GJAM的基于全球卷积长短短期记忆GCH的光谱空间依赖全局学习SSDGL框架，不足和不平衡的HSI分类。在SSDGL中，提出了分层平衡的H B采样策略和加权软制AX丢失来解决不平衡的样本问题。为了有效地区分地覆盖类型的类似光谱特性，引入了GCL模块以提取光谱特征的长期短期依赖性。为了了解最辨别的特征表示，建议GJAM模块提取注意区域。用三个公共HSI数据集获得的实验结果表明，SSDGL具有强大的性能在不足和不平衡的样本问题中，并且优于其他现有技术方法。可以获得代码

Implementing a foveal-pit inspired filter in a Spiking Convolutional Neural Network: a preliminary study
Authors Shriya T.P. Gupta, Basabdatta Sen Bhattacharya
我们介绍了一个尖峰卷积神经网络SCNN，该网络SCNN包含高斯滤波器的视网膜功能型坑，并进行了高斯滤波器和排序顺序编码。该模型使用适用于Nengo图书馆实施的尖峰神经元的反向衰退算法的变型培训。我们评估了我们在两个公共可用数据集中的模型的性能，用于数字识别任务，另一个用于车辆识别任务。网络已经实现了高达90的精度，其中使用跨熵函数计算丢失。这是在没有任何神经滤波的情况下进行分类的交替方法获得的大约57左右的改进。总体而言，我们的概念研究证明表明，在现有的SCNN架构中引入生物合理的滤波将适用于诸如我们的车辆识别任务中的噪声输入图像。根据我们的结果，我们计划通过在排序排序之前集成基于横向抑制的冗余减少来增强我们的SCNN，这将进一步提高网络的分类精度。

RPG: Learning Recursive Point Cloud Generation
Authors Wei Jan Ko, Hui Yu Huang, Yu Liang Kuo, Chen Yi Chiu, Li Heng Wang, Wei Chen Chiu
在本文中，我们提出了一种新型点云发生器，能够重建和生成由语义部件组成的3D云。鉴于目标3D模型的潜在表示，生成从单点开始，并且通过一系列点扩展阶段递归地扩展以产生高分辨率点云。在生成的递归程序期间，我们不仅可以从每个扩展阶段获得目标3D模型的粗略点云，还根据扩展的点之间的分层父子关系，无监视发现目标模型的语义分割阶段。此外，我们递归发生器中使用的扩展模块和其他元件主要是分享重量，从而使整体框架光和有效。进行了广泛的实验，以证明我们所提出的点云发生器与各种基线相比，我们的所提出的点云发生器在生成和重建任务方面具有相当的性能，以及在相同对象类的3D实例之间提供一致的CO分段。

Automatic CT Segmentation from Bounding Box Annotations using Convolutional Neural Networks
Authors Yuanpeng Liu, Qinglei Hui, Zhiyi Peng, Shaolin Gong, Dexing Kong
医学图像的准确分割对于临床诊断是重要的。现有的自动分段方法主要基于完全监督的学习，对精确注释具有极高的需求，这是非常昂贵且耗时的。为了解决这个问题，我们提出了一种基于弱监督学习的自动CT分割方法，其中一个人可以仅培训一个准确的分段模型，只能以边界框的形式带有弱注释。所提出的方法由两个步骤1组成，其中通过K表示聚类的边界框注释产生伪掩模，并且2迭代地训练3D U Net卷积神经网络作为分割模型。一些数据预处理方法用于提高性能。该方法在包含三种类型的器官的四种数据集上验证，总共627ct卷。对于肝，脾和肾分割，它分别实现了95.19,92.11和91.45的准确性。实验结果表明，我们的方法是准确，高效的，适用于临床用途。

LPF: A Language-Prior Feedback Objective Function for De-biased Visual Question Answering
Authors Zujie Liang, Haifeng Hu, Jiaying Zhu
大多数现有的视觉问题应答VQA系统倾向于过度依赖语言偏见，因此无法从视觉线索中推出。为了解决这个问题，我们提出了一种新的语言前反馈LPF目标函数，重新平衡每个答案损失的每个答案损失的比例。 LPF首先计算调制因子以使用问题分支确定语言偏差。然后，LPF为培训过程中的每个训练样本分配自适应权重。通过这种重新重量机制，LPF确保总VQA损耗可以重新装入更平衡的形式。通过这种方式，在训练期间将有效地使用需要某些可视信息预测的样本。我们的方法易于实施，模型不可知论图，结束到最终培训。我们进行广泛的实验，结果表明，LPF 1对各种VQA模型带来了显着的改进，2在偏见敏感VQA CP V2基准上实现了竞争性能。

Deep Learning on Monocular Object Pose Detection and Tracking: A Comprehensive Overview
Authors Zhaoxin Fan, Yazhi Zhu, Yulin He, Qi Sun, Hongyan Liu, Jun He
由于许多领域的广泛应用，诸如自主驾驶，机器人和增强现实，但是由于其广泛的应用，造成姿势检测和跟踪最近引起了越来越多的关注。在对象姿态检测和跟踪的方法中，深度学习是最有希望的，它表现出比其他更好的性能。然而，缺乏关于基于深度学习方法的最新发展的调查研究。因此，本文介绍了对物体姿势检测和追踪所在的近期进步的全面审查，这些进展属于深度学习技术路线。为实现更全面的介绍，本文的范围仅限于将单眼RGB RGBD数据作为输入的方法，涵盖三种主要任务实例级单眼物体姿势检测，类别级单眼物体姿势检测，以及单眼物体姿势跟踪。在我们的工作中，详细介绍了关于检测和跟踪的度量标准，数据集和方法。还介绍了几个公共数据集的现有技术的当前状态的比较结果，以及富有洞察力的观察和鼓舞人心的未来研究方向。

Detecting Backdoor in Deep Neural Networks via Intentional Adversarial Perturbations
Authors Mingfu Xue, Yinghao Wu, Zhiyu Wu, Jian Wang, Yushu Zhang, Weiqiang Liu
最近的研究表明，深入学习模型易受抵抗攻击的影响，其中嵌入模型中的后门将在后门实例到达时触发。本文提出了一种基于对抗实施例的新型后泊检测方法。所提出的方法利用有意的对抗性扰动来检测图像是否包含触发器，其可以应用于两种情况，这些方案可以应用于训练阶段中的训练并检测推理阶段中的后门实例。具体地，给定不受信任的图像，如果扰动图像上的模型预测与未受干扰的图像上的模型预测一致，则对其进行侵扰性扰动，则输入图像将被视为后门实例。所提出的基于对冲扰动的方法需要低计算资源并保持图像的视觉质量。实验结果表明，拟议的防御方法分别将后门攻击成功率从99.47,99.77和97.89分别降低到时尚Mnist，CiFar 10和GTSRB数据集中的0.37,0.24和0.09。此外，所提出的方法保持图像的视觉质量，因为添加的扰动非常小。此外，对于不同设置下的攻击触发透明度，触发尺寸和触发模式，所提出的方法的假验收率分别在时尚Mnist，CiFar 10和GTSRB数据集上分别低至1.2,0.3和0.04，这表明了提出的方法可以在不同的攻击设置下实现抵御后门攻击的高防御性能。

Compressed Sensing for Photoacoustic Computed Tomography Using an Untrained Neural Network
Authors Hengrong Lan, Juze Zhang, Changchun Yang, Fei Gao
光声PA计算机断层扫描协议在各种临床前和临床应用中显示出极大的潜力。大量的测量是获得高质量图像的前提，这意味着低成像速率或高系统成本。如果我们减少测量信道的数量或限制检测到的视图，则伪影或侧面可以污染图像。在本文中，提出了一种使用未训练的神经网络的用于PATCT的新型压缩感测方法，这降低了测量通道的半次数并回收了足够的细节。该方法使用神经网络来重建，而不需要基于之前的深图像的任何额外学习。该模型可以仅使用少数梯度下降来重建图像。我们的方法可以与其他现有的正则化合作，进一步提高质量。此外，我们在易于将模型融合到图像之前介绍一种形状。我们验证了PA图像重建中未训练网络的压缩感的可行性，并将此方法与使用总变化最小化的传统方法进行比较。实验结果表明，我们所提出的方法在相同规范中的传统压缩传感方法优于32.72 SSIM。通过稀疏对原始PA数据稀疏采样，可以显着降低换能器数量的要求，并显着提高PA图像的质量。

Cherry-Picking Gradients: Learning Low-Rank Embeddings of Visual Data via Differentiable Cross-Approximation
Authors Mikhail Usvyatsov, Anastasia Makarova, Rafael Ballester Ripoll, Maxim Rakhuba, Andreas Krause, Konrad Schindler
我们建议结束终端培训框架，通过仅在其条目的一小部分中查看大规模视觉数据张量。我们的方法将神经网络编码器与EMPH Tensor TRATO分解组合以学习低等级潜在编码，耦合与交叉近似CA以通过原始样本的子集学习表示。 CA是一种自适应采样算法，它是原生的张量分解，并避免明确地使用全高分辨率数据。相反，它主动选择我们从核心和需求中获取的本地代表性样本。所需数量的样本仅使用输入的大小对数进行对数。我们网络中的张量的隐式表示可以处理在其未压缩形式中不能另有遗传的大网格。所提出的方法对于大规模的多维网格数据特别有用，例如，3D层析成像，以及需要在大型接收领域上进行上下文的任务，例如，预测整个器官的医疗状况。代码将可用

Analysis and Applications of Class-wise Robustness in Adversarial Training
Authors Qi Tian, Kun Kuang, Kelu Jiang, Fei Wu, Yisen Wang
对抗性培训是改善对抗对抗示例的最有效的方法之一。然而，以前的作品主要集中在模型的整体稳健性，以及对来自对抗训练中的每个班级的作用的深度分析仍然缺失。在本文中，我们建议分析对抗对抗培训的典型稳健性。首先，我们在六个基准数据集，即MNIST，CiFar 10，CiFar 100，SVHN，STL 10和ImageNet上提供对对手训练的详细诊断。令人惊讶的是，课程中发现存在显着的稳健性差异，导致强大的模型中的不平衡不平衡阶级明智的稳健性。此外，我们继续调查课程之间的关系，并发现不平衡的课堂稳健性在不同的攻击和防御方法中非常一致。此外，我们观察到对抗性学习中的更强的攻击方法实现了性能改善，主要是对弱势群体的更成功的攻击，即稳健性较低的课程。灵感来自这些有趣的发现，我们设计了一种基于传统的PGD攻击，命名为PGD攻击的简单但有效的攻击方法，该方法提议在具有温度因数对每个图像的置信度分布的温度因数来扩大鲁棒性视差。实验证明我们的方法可以达到比PGD攻击更高的攻击率。此外，从防御角度来看，我们还在培训和推理阶段进行了一些修改，以提高最脆弱的阶级的稳健性，从而减轻阶级稳健性的巨大差异。我们相信我们的工作可以促进对对抗性培训的更全面的了解，并在强大的模型中重新思考阶级的典型物业。

Transforming the Latent Space of StyleGAN for Real Face Editing
Authors Heyi Li, Jinlong Liu, Yunzhi Bai, Huayan Wang, Klaus Mueller
尽管使用样式甘肃的语义操纵最近进行了最新进展，但真正面孔的语义编辑仍然具有挑战性。 W空间与W空间之间的差距要求重建质量和编辑质量之间的不良折衷。为了解决这个问题，我们建议通过用基于注意的变压器更换样式映射网络中的完全连接的图层来扩展潜在空间。这种简单有效的技术集成了上述两个空格，并将它们转换为一个名为W.的新潜在空间。我们的修改式样式以适度更好的多样性维持原始风格的艺术代理的状态。但更重要的是，提出的W空间在重建质量和编辑质量方面都能实现卓越的性能。尽管有这些优势，但我们的W空间支持现有的反转算法和编辑方法，因为由于其与W W空间的结构相似性，因此只有可忽略不计的修改。关于FFHQ数据集的广泛实验证明，我们提出的W空间明显比以前的实际面部编辑的空间更优选。该代码公开可用于研究目的

Less is More: Pay Less Attention in Vision Transformers
Authors Zizheng Pan, Bohan Zhuang, Haoyu He, Jing Liu, Jianfei Cai
变压器已成为深度学习中的主导架构之一，特别是在计算机视觉中的卷积神经网络CNNS的强大替代品。然而，由于在长期表示的长期表示的自我关注的二次复杂性，特别是对于高分辨率密集预测任务，以前作品中的变压器培训和推理可能是过于昂贵的。为此，我们提出了一种更少的注意力视觉变压器点亮，建立了卷积，完全连接的Fc层和自我关注具有几乎具有用于处理图像补片序列的数学表达式的事实。具体而言，我们提出了一种分层变压器，在那里我们使用纯多层Perceptrons MLP，以在早期阶段编码丰富的本地模式，同时应用自我注意模块，以捕获更深层中的较长依赖性。此外，我们进一步提出了一种学习可变形的令牌合并模块，以以非均匀方式自适应地熔化信息贴片。建议的点亮在图像识别任务中实现了有希望的性能，包括图像分类，对象检测和实例分割，作为许多愿景任务的强骨干。

UFC-BERT: Unifying Multi-Modal Controls for Conditional Image Synthesis
Authors Zhu Zhang, Jianxin Ma, Chang Zhou, Rui Men, Zhikang Li, Ming Ding, Jie Tang, Jingren Zhou, Hongxia Yang
条件图像合成旨在根据文本描述，参考图像和图像块的形式创建图像以保留的一些多模态指导，以及它们的组合。在本文中，我们提出了一个新的两个阶段架构UFC BERT，而不是分开调查这些控制信号，以统一任意数量的多模态控件。在UFC BERT中，各种控制信号和合成图像都均匀地表示为由变压器处理的离散令牌序列。不同于现有的两级自回归方式，如Dall E和VQGan，UFC BERT在第二阶段采用非自动产生的NAR，以增强合成图像的整体一致性，以支持保持指定的图像块，并提高合成速度。此外，我们设计了一种逐步算法，其迭代地改善了非自动产生的图像，借助于为评估遵守控制和综合图像的保真度来评估两个估计器的帮助。在新收集的大型服装数据集M2C时尚和面部数据集多模态Celeba总体上进行了广泛的实验，验证了UFC BERT可以合成符合灵活的多模态控件的高保真图像。

Learning Convolutions with Only Additions
Authors Hanting Chen, Yunhe Wang, Chang Xu, Chao Xu, Chunjing Xu, Tong Zhang
与便宜的加成操作相比，乘法操作具有更高的计算复杂性。在深神经网络的广泛使用的卷积是测量输入要素和卷积滤波器，这涉及浮点值之间大量的乘法之间的相似度准确的互相关。在本文中，我们将Adder网络提供了addernets在深神经网络中交易这些大规模乘法，特别是卷积神经网络CNN，以降低计算成本。在Addernets中，我们将滤波器和输入功能之间的ELL 1标准距离作为输出响应。彻底分析了这种新的相似度测量对神经网络优化的影响。为了达到更好的性能，我们通过调查ELL p范式制定AdderNets一个特殊的训练方法。然后，我们提出了一种自适应学习率策略，以根据每个神经元S梯度的幅度提高addernet的培训程序。因此，所提出的AdDedEtnets可以在ImageNet DataSet上使用Reset 50实现75.7前1个精度92.3前5个精度，而不会在卷积层中乘以任何乘法。此外，我们为Addernets开发了理论基础，通过表明单个隐藏层Addernet和具有Relu激活功能的宽度有界深addernet都是通用函数近似器。这些结果与传统神经网络的结果相匹配，使用更复杂的乘法单位。还呈现了具有单个隐藏层的addernets的近似的近似。

Classifying States of Cooking Objects Using Convolutional Neural Network
Authors Qi Zheng
自动烹饪机是未来的目标。主要目的是使烹饪过程更容易，更安全，创造人类福利。为了使机器人能够准确地执行烹饪活动，因此可以了解烹饪环境并识别物体，特别是正确识别烹饪物体的状态。这将显着提高以下烹饪食谱的正确性。在该项目中，进行了几个部分的实验，以设计一个强大的深卷积神经网络，用于将烹饪物体的状态从划痕进行分类。通过使用各种技术来评估模型，例如调整架构层，调谐键超公数，以及使用不同的优化技术来最大化状态分类的准确性。

A Survey of Performance Optimization in Neural Network-Based Video Analytics Systems
Authors Nada Ibrahim, Preeti Maurya, Omid Jafari, Parth Nagarkar
视频分析系统在视频中执行自动事件，移动和动作识别，并使其可以在视频上执行查询。由于需要处理的大量视频数据，优化视频分析系统的性能已成为一个重要的研究主题。神经网络是用于执行诸如视频注释和对象检测之类的视频分析任务的领域。现有调查论文考虑应用特定视频分析技术，以提高结果的准确性，但在本调查纸上，我们对专注于优化基于神经网络的视频分析系统的性能的技术提供了审查。

Instance Segmentation of Microscopic Foraminifera
Authors Thomas Haugland Johansen, Steffen Aagaard S rensen, Kajsa M llersen, Fred Godtliebsen
Foraminifera是单细胞海洋生物，其构建壳体在海洋沉积物中保留为化石的壳。分类和计数这些化石在例如，这些化石很重要。古学海洋学和气候研究。然而，自1800年以来一直在手动执行识别和计数过程，并且是费力且耗时的。在这项工作中，我们介绍了一种用于分类，检测和分割微观传播的基于深度学习的实例分段模型。我们的模型基于Mask R CNN架构，使用在Coco检测数据集上学习的模型权重参数。我们使用精细调整方法来调整新的对象检测数据集的参数，超过7000个微观传染率和沉积物晶粒。该模型在分类和检测任务上实现了0.78 0.00 0.78的COCO风格精度，分段任务上的0.80 PM 0.00.00.当评估模型而不具有挑战性的沉积物晶粒图像时，两个任务的平均精度分别增加到0.84pm 0.00和0.86μm0.00。定量和定性地分析预测结果并讨论。基于我们的研究结果，我们提出了几个方向用于未来的工作，并得出结论，我们所提出的模型是旨在自动识别和计数微观传染率的重要一步。

RaspberryPI for mosquito neutralization by power laser
Authors R. Ildar
在本文中首次，考虑了使用机器视觉和1 W功率激光的蚊子中和的综合研究。用覆盆子PI开发了激光装置，使电流计改变激光的方向。我们开发了一个真实的蚊帐追踪计划。考虑了使用深神经网络，哈尔级联，机器学习的可能性进行了考虑。我们详细考虑了图像中蚊子的分类问题。基于微控制器的微控制器提供了一种推荐，以便随后用作无人驾驶飞行器的一部分。田间中的任何有害昆虫都可以用作控制的物体。

FCPose: Fully Convolutional Multi-Person Pose Estimation with Dynamic Instance-Aware Convolutions
Authors Weian Mao, Zhi Tian, Xinlong Wang, Chunhua Shen
我们提出了一种使用动态实例意识的卷积，称为Fc30的完全卷积的多人姿态估计框架。与现有方法不同，这通常需要乐趣的兴趣传播操作和或分组后处理，消除了使用动态实例感知keypoint估计头的ROI和分组后处理。动态键盘头在每个实例人员上都有条件，并且可以在其滤波器的动态生成的权重中对实例概念进行编码。此外，通过动态卷积的强烈表示能力，FCPose中的关键点头被设计为非常紧凑，导致快速推断，并且不管图像中的人数如何，都具有几乎恒定的推理时间。例如，在Coco DataSet上，使用DLA 34骨架Infers的实时版本比蒙版R CNN Reset 101 41.67 FPS与9.26fps更快地实现了提高性能。 FCPose还提供比其他现有技术的更好的速度准确性折衷。我们的实验结果表明，FCPose是一个简单而有效的多人姿势估计框架。代码可用

E2ETag: An End-to-End Trainable Method for Generating and Detecting Fiducial Markers
Authors J. Brennan Peace, Eric Psota, Yanfeng Liu, Lance C. P rez
现有的基准标记解决方案专为有效的检测和解码而设计，但是，它们在自然环境中脱颖而出的能力难以从相对有限的分析中推断出来。此外，在挑战性的图像捕获场景中恶化性能，例如较差的曝光，运动模糊和脱离轴观察棚光的局限性。 E2ETAG介绍了用于设计基准标记和补充探测器的最终培训方法。通过引入可传播的标记增强和叠加到训练中，该方法学会生成可以使用完全卷积探测器网络在具有挑战性的现实世界环境中检测和分类的标记。结果表明，E2ETAG在理想条件下优于现有方法，并且在运动模糊，对比度波动，噪声和断开轴观察角度的情况下更好地执行更好。源代码和培训型号可用

FoveaTer: Foveated Transformer for Image Classification
Authors Aditya Jonnalagadda, William Wang, Miguel P. Eckstein
许多动物和人类通过不同的空间分辨率进行了变化的视野来处理视野，并使用外围处理来使眼球移动并指向FOVEA获取关于感兴趣对象的高分辨率信息。这种架构导致计算上有效的快速场景探索。 Vision变形金刚的最新进展带来了传统卷积依赖性计算机视觉系统的新替代方案。然而，这些模型没有明确地模拟视觉系统的变形特性，也不明确地模拟眼球运动之间的相互作用和分类任务。我们提出了变压器的变压器模型，它使用池区域和扫视运动来使用视觉变压器架构执行对象分类任务。我们提出的模型池使用平方池区域的图像特征，近似于生物启发的FOVEATED架构，并使用汇总功能作为变压器网络的输入。它根据变压器分配给来自之前和呈现固定的各个位置的注意力来决定以下固定位置。该模型使用置信阈值来停止场景探索，允许动态地将更多的固定计算资源分配给更具有挑战性的图像。我们使用所提出的模型和不扩展的模型来构建集合模型，实现了22个计算储蓄低于未伸展模型的精度1.36。最后，我们展示了我们对抗对抗攻击的模型的稳健性，在那里它越来越突出的模型。

Enhancing Environmental Enforcement with Near Real-Time Monitoring: Likelihood-Based Detection of Structural Expansion of Intensive Livestock Farms
Authors Ben Chugg, Brandon Anderson, Seiji Eicher, Sandy Lee, Daniel E. Ho
环境执法历史依赖于物理，资源密集和不常见的检查。遥感和计算机愿景的进步通过提供允许允许的预警信号来增加合规性监控。我们展示了一种利用卫星图像快速识别显着的结构扩张的过程，并专注于浓缩动物饲养操作Cafos作为测试用例。无能为力的扩张是与咖啡馆的特殊挑战，这构成了重大的健康和环境风险。使用175,736个图的新手标记的数据集1,513张Cafos，我们将最先进的建筑物分割状态与基于可能的改变点检测模型相结合，提供了建筑扩展AUC 0.80的强大信号。这种方法的一个主要优点是它能够每天与每周高的节奏合作，但是较低的分辨率3M像素，卫星图像。它也是高度普遍的，因此提供了一个近实时监测工具，以优先考虑执法资源，以便其他设置不合适的施工构成环境风险，例如，分区，栖息地修改或湿地保护。

Unsupervised Action Segmentation with Self-supervised Feature Learning and Co-occurrence Parsing
Authors Zhe Wang, Hao Chen, Xinyu Li, Chunhui Liu, Yuanjun Xiong, Joseph Tighe, Charless Fowlkes
时间动作分割是一个任务，用于使用动作标签对视频中的每个帧进行分类。但是，在一个视频中的大语料库中向构建全面的监督训练数据集是非常昂贵的。因此，在这项工作中，我们探讨了一个自我监督的方法，在未标记的视频的语音上运行，并预测视频中的可能一组时间段。为此，我们利用自我监督的视频分类方法来执行无监督的功能提取。在这些功能之上，我们开发帽，一种新的CO发生行动解析算法，其不仅可以捕获所在活动结构的子行为之间的相关性，而且还以准确和一般的方式估计子行动的时间轨迹。我们在经典的数据集早餐，50salad和新兴细粒度动作数据集Mietegym上进行评估，具有更复杂的活动结构和类似的子行动。结果表明，我们的方法在所有三个数据集中实现了最多22个改进的所有三个数据集的状态，甚至可以越来越优于一些弱监管的方法，展示其有效性和概括性。

OpenMatch: Open-set Consistency Regularization for Semi-supervised Learning with Outliers
Authors Kuniaki Saito, Donghyun Kim, Kate Saenko
半监督学习SSL是利用未标记的数据来提高模型性能的有效手段。典型的SSL方法，如Fixmatch，假设标记和未标记的数据共享相同的标签空间。但是，在实践中，未标记的数据可以包含标记集中的类别，即异常值，这可能会显着损害SSL算法的性能。为了解决这个问题，我们提出了一种名为OpenMatch的新开放式半监督学习OSSL方法。在拒绝异常值的同时学习情人的表示对于OSSL的成功至关重要。为此，OpenMatch基于一个VS All OVA分类器统一统一用新颖性检测的舵机。 OVA分类器输出样本的置信度评分是Inlier的，提供检测异常值的阈值。另一个关键贡献是开放式软件正则化损耗，这提高了OVA分类器相对于输入变换的平滑度，大大提高了异常检测。 OpenMatch在三个数据集中实现了最新性能的状态，甚至甚至优于在CIFAR10上的未标记数据中检测到未代标数据的异常值的完全监督模型。

Transformer-Based Source-Free Domain Adaptation
Authors Guanglei Yang, Hao Tang, Zhun Zhong, Mingli Ding, Ling Shao, Nicu Sebe, Elisa Ricci
在本文中，我们研究了源自域适应SFDA的任务，其中源数据在目标自适应期间不可用。以前的SFDA工作主要专注于对齐跨域分布。然而，它们忽略了预磨料源模型的泛化能力，这在很大程度上影响了对目标适应阶段至关重要的初始目标输出。为了解决这个问题，我们做出了有趣的观察，即模型准确性与关注是否关注图像中的对象高度相关。为此，我们提出了一种基于变压器，名为Transda的通用和有效框架，用于学习SFDA的广义模型。具体地，我们将变压器应用为注意模块并将其注入卷积网络。通过这样做，鼓励模型转向对象区域的注意，这可以有效地提高目标域上的模型的泛化能力。此外，提出了一种新颖的自我监督知识蒸馏方法，以使变压器与目标伪标签进行调整，从而进一步鼓励网络聚焦在对象区域上。三个域适配任务的实验，包括封闭式集，部分集和开放式适应，表明Transda可以大大提高适应精度和产生最新的状态。源代码和培训的型号可用

3D U-NetR: Low Dose Computed Tomography Reconstruction via Deep Learning and 3 Dimensional Convolutions
Authors Doga Gunduzalp, Batuhan Cengiz, Mehmet Ozan Unal, Isa Yildirim
在本文中，我们通过考虑2维低剂量CT图像之间的相关性，介绍了所有3维度的相关基于深度学习的重建技术。将稀疏或嘈杂的中央表一起投影到具有FBP操作的图像域，然后使用称为3D U Netr的U Net等3维网络应用去噪过程。建议的网络接受了合成和真实胸部CT图像的培训，并且2D U Net也用相同的数据集培训，以证明第3维度的重要性。所提出的网络在SSIM和PSNR上显示了更好的定量性能。更重要的是，3D U Netr捕获了由2D网络无法可视化的医学上临界视觉细节。

About Explicit Variance Minimization: Training Neural Networks for Medical Imaging With Limited Data Annotations
Authors Dmitrii Shubin, Danny Eytan, Sebastian D. Goodfellow
用于计算机愿景的自我监督学习方法已经证明了预训练特征表示的有效性，从而导致良好的深度神经网络，即使注释数据有限。然而，表示学习技术需要大量的模型训练时间，其中大部分时间都花费了精确的超参数优化和增强技术的选择。我们假设注释数据集具有足够的形态多样性来捕获一般人群，例如，由于组织神话的保守相似性，训练模型的方差误差是偏差方差的普遍组分交易。我们提出了通过将方差误差引入模型丢失函数的方差误差，即明确地实现方差来利用此属性来利用此属性的方差识别培训增值税方法。此外，我们提供了建议方法的理论配方和证明，以帮助解释这种方法。我们的方法需要只选择一个超参数，并且能够匹配或改善自我监督方法的最新状态，同时实现GPU训练时间的级别减少量。我们在不同域名和各种学习目标上验证了三个医学成像数据集的增值税。其中包括磁共振成像MRI DataSet用于心脏语义分割MICCAI 2017 ACDC挑战，眼底摄影数据集进行常见的糖尿病视网膜病变alggle 2019 APTOS失明检测挑战，以及淋巴结部分组织病理学扫描的分类斑驳蛋白酶。

MixerGAN: An MLP-Based Architecture for Unpaired Image-to-Image Translation
Authors George Cazenavette, Manuel Ladron De Guevara
虽然基于关注的变压器网络在几乎所有语言任务中实现了无与伦比的成功，但与二次激活内存使用情况耦合的大量令牌使它们禁止视觉任务。因此，虽然变压器模型革新了语言翻译的语言，但卷积网络仍然是图像转换的实体解决方案。最近建议的MLP混合器架构减轻了与基于关注的网络相关的一些速度和内存问题，同时仍然保留了使变压器模型所需的长距离连接。利用这种有效的替代方案来自我关注，我们向图像翻译模型提出了一个名为MIXERGAN的图像翻译模型的基于MLP的架构，该架构考虑了像素之间的长距离关系，而无需昂贵的注意机制。定量和定性分析表明，与现有的基于卷积的方法相比，Mixergan达到了竞争力。

More Is Better: An Analysis of Instance Quantity/Quality Trade-off in Rehearsal-based Continual Learning
Authors Francesco Pelosin, Andrea Torsello
能够在动态变化的环境中学习的机器和算法的设计已成为学习系统可用数据的大小和异质性的越来越多的局部问题。因此，持续学习的关键问题已成为解决连接人员系统的稳定性可塑性困境，因为他们需要调整其模型而不会忘记以前获得的知识。在此背景下，基于排练的方法即，学习者利用记忆来重新审视过去数据的解决方案，已经证明是非常有效的，导致现有技术的性能。在我们的研究中，我们提出了分析了采用各种数据减少方法的内存数量折衷，以增加存储器中可存储的实例数。特别地，我们研究了复杂的实例压缩技术，例如深度编码器，而且还包括图像调整大小和线性维度降低的普通方法。我们的研究结果表明，最佳折衷往往对实例数量严重倾斜，其中具有几种严重压缩实例的排练方法容易倾销现有技术的现有状态，以其处置相同的内存。此外，在高存储器配置中，深度接近提取空间结构与极端调整的极端调整为8倍图像的大小，产生最佳结果，而在内存受限的配置中，由于它们在训练中的内存要求，极端学习机的要求无法使用。榆树提供了明显的优势。

Augmenting Anchors by the Detector Itself
Authors Xiaopei Wan, Shengjie Chen, Yujiu Yang, Zhenhua Guo, Fangbo Tao
难以确定基于锚的物体检测方法的锚点的比例和宽高比。最新的现有状态对象检测器根据物体形状和数据集中的比例来确定锚点参数，或者通过利用锚自由方法避免此问题。在本文中，我们提出了一种名为Aadi的梯度自由锚固方法，这意味着探测器本身增强锚点。 AADI不是锚自由方法，而是将锚与连续空间的宽度和宽高比转换为离散空间，这大大减轻了锚标题的问题。此外，AADI不会添加任何参数或超参数，这对于未来的研究和下游任务有利。对Coco DataSet的广泛实验表明，Aadi对两个阶段和单级方法具有明显的优势，具体而言，AADI使用Reset50模型对RetinAnet的更快的R CNN和1.6 AP改进来实现至少2.1 AP改进。我们希望这种简单且成本高效的方法可广泛用于对象检测。

On the Bias Against Inductive Biases
Authors George Cazenavette, Simon Lucey
从变压器模型借用彻底改变了自然语言处理领域，自我监督的特征学习对于视觉任务也可以看到使用这些极其深的各向同性网络的最先进的成功。然而，典型的AI研究人员没有资源来评估，更不用说火车，一个具有数亿参数和二次自我关注激活的模型。为了促进进一步的研究，有必要了解这些巨大的变压器模型的功能，可以通过典型的研究员充分研究。这些变压器模型的一个有趣的特性是它们删除了古典卷积网络中存在的大部分感应偏差。在这项工作中，我们分析了这些和更具归纳偏差对小于中等大小的各向同性网络的影响，用于无监督的视觉特征学习，并表明他们的去除并不总是理想的。

TransCamP: Graph Transformer for 6-DoF Camera Pose Estimation
Authors Xinyi Li, Haibin Ling
相机姿势估计或相机重锁定是众多计算机视觉任务中的核心，如视觉测距，运动SFM和SLAM的结构。在本文中，我们提出了一种具有曲线变压器骨干网的神经网络方法，即转换，解决摄像机重定位化问题。相反，与姿势回归主要由光度致力于光度一致性引导，转基地有效地将图像特征，相机姿势信息和帧间相对摄像机运动融合到编码的图形属性中，并朝着图表一致性和准确度训练，促成显着更高计算效率。通过利用具有边缘特征的曲线图变压器层并实现扭曲的邻接矩阵，转基地动态地捕获全局注意力，从而通过不断变化的结构赋予姿势图，以实现改善的鲁棒性和准确性。此外，可选的时间变压器层积极增强用于顺序输入的时空帧关系。对各种公共基准测试的拟议网络的评估表明，转发器优于现有技术的态度。

Toward Understanding the Feature Learning Process of Self-supervised Contrastive Learning
Authors Zixin Wen, Yuanzhi Li
如何通过对比的数据训练的神经网络从未标记的数据训练为什么对比学习通常需要更强大的数据增强，而不是监督学习，以确保良好的表示这些问题涉及深度学习的优化和统计方面，但几乎不能回答分析监督学习，目标职能是最高的追求。实际上，在自我监督的学习中，它是不可避免的，涉及神经网络的优化泛化，以如何编码数据中的潜在结构，我们将其称为Texit特征学习过程。

Dominant Patterns: Critical Features Hidden in Deep Neural Networks
Authors Zhixing Ye, Shaofei Qin, Sizhe Chen, Xiaolin Huang
在本文中，我们发现存在隐藏在深度神经网络DNN中的关键特征的存在，这是难以察觉的，但实际上可以占据DNN的输出。我们称这些功能具有主导模式。顾名思义，对于自然图像，如果我们将DNN的主导模式添加到它，则该DNN的输出由主导模式而不是原始图像确定，即，DNN S预测与主导相同模式s。我们设计一种算法来通过追求特征空间中的不敏感来找此类模式。直接应用主导模式是UAPS的普遍对抗性扰动。数值实验表明，所发现的主导模式击败了艺术UAP方法的状态，尤其是在标签免费设置中。此外，证明主导模式有可能攻击下游任务，其中DNN共享相同的骨干。我们声称DNN特定的主导模式揭示了DNN的一些基本属性，并且对于其特征分析和鲁棒性增强具有重要意义。

A remark on a paper of Krotov and Hopfield [
Authors Fei Tang, Michael Kopp
在他们最近的纸张中标题为神经生物学和机器学习中的大型关联记忆问题

Feasibility Assessment of Multitasking in MRI Neuroimaging Analysis: Tissue Segmentation, Cross-Modality Conversion and Bias correction
Authors Mohammad Eslami, Solale Tabarestani, Malek Adjouadi
神经影像体是脑研究中的疾病，结构和疾病状态的疾病，结构和功能的必要性。文献表明，多任务处理具有一些深入学习的DL方案的优点，在挑战神经影像应用中。本研究探讨了在三种不同应用中使用多任务处理的可行性，包括组织分割，跨模型转换和偏置场校正。这些应用程序反映了五种不同的情景，其中探索了多任务处理，并为实证评估进行了280次培训和测试会话。实现了两个众所周知的网络，U NET作为众所周知的卷积神经网络架构，以及基于条件生成的对冲网络的封闭架构是实现的。诸如归一化交叉相关系数和骰子得分的不同度量用于比较不同实验的方法和结果。还通过配对T检验提供统计分析。本研究探讨了这些方法的优缺点及其对不同实施方案中多任务处理的实际影响。本研究表明，偏置校正和跨模型转换应用比分割应用更容易，并且如果其中一个被识别为主要目标应用，则具有分割的多任务处理是不合理的。然而，当主要应用是组织的分割时，具有交叉模态转换的多任务处理是有益的，特别是对于U NET架构。

Boosting the Performance of Video Compression Artifact Reduction with Reference Frame Proposals and Frequency Domain Information
Authors Yi Xu, Minyi Zhao, Jing Liu, Xinjian Zhang, Longwen Gao, Shuigeng Zhou, Huyang Sun
已经提出了许多基于深度学习的视频压缩伪影拆除算法，从低质量压缩视频中恢复了高质量的视频。最近，提出了通过利用多个相邻帧作为参考帧来挖掘时空信息的方法。然而，这些后处理方法直接利用相邻帧，但忽略了视频本身的信息，可以利用。在本文中，我们提出了一种有效的参考框架建议策略，以提高现有的多帧方法的性能。此外，我们基于快速傅里叶变换FFT引入损失，以进一步提高恢复的有效性。实验结果表明，我们的方法在MFQE 2.0数据集中实现了更好的保真度和感知性能，而不是最先进的方法。我们的方法赢得了赛道1和轨道2，并在NTIRE 2021的第3赛道中排名第二，质量增强了重大压缩视频挑战。

SNIPS: Solving Noisy Inverse Problems Stochastically
Authors Bahjat Kawar, Gregory Vaksman, Michael Elad
在这项工作中，我们介绍了一种新的随机算法被称为剪辑，其从任何线性逆问题的后部分布中汲取样本，其中假设观察被添加剂白色高斯噪声被污染。我们的解决方案包含来自Langevin Dynamics和Newton S方法的想法，并利用预训练的最小均匀误差MMSE高斯丹机。所提出的方法依赖于包括劣化运算符的奇异值分解SVD的后退函数的复杂衍生，以获得用于所需采样的易迭代算法。由于其瞬间，该算法可以为同样嘈杂的观察产生多个高感性质量样本。我们展示了建议的图像去掩饰，超分辨率和压缩传感的范例的能力。我们表明，产生的样品是尖锐的，详细和符合给定的测量，它们的多样性暴露了所解决的逆问题的固有不确定性。

Chinese Abs From Machine Translation

Papers from arxiv.org

更多精彩请移步主页

pic from pexels.com