【AI视野·今日CV 计算机视觉论文速览第214期】Mon, 7 Jun 2021

本文链接：https://blog.csdn.net/u014636245/article/details/117669775

AI视野·今日CS.CV 计算机视觉论文速览
Mon, 7 Jun 2021
Totally 51 papers
👉上期速览✈更多精彩请移步主页

在这里插入图片描述

Daily Computer Vision Papers

Associating Objects with Transformers for Video Object Segmentation
Authors Zongxin Yang, Yunchao Wei, Yi Yang
本文研究了如何实现更好，更高效的嵌入学习，以解决在质疑多对象场景下解决半监控视频对象分段。最先进的方法学习用单个正对象解码功能，因此必须在多次计算资源中匹配和逐个匹配和划分每个目标，以多次计算资源。为了解决问题，我们提出了一个与变换器AOT方法的关联对象均匀匹配和解码多个对象。详细地，AOT采用识别机制将多个目标与相同的高维嵌入空间相关联。因此，我们可以同时处理多个对象的匹配和分割解码，如处理单个对象一样有效地处理多个对象。对于多对象关联的充分建模，长期变压器设计用于构建分层匹配和传播。我们对多对象和单个对象基准进行广泛的实验，以检查具有不同复杂性的AOT变体网络。特别是，我们的AOT L超越了三个流行的基准，即YouTube Vos 83.7 J F，Davis 2017 83.0和Davis 2016 91.0，同时保持了更好的多目标效率。同时，我们的AOT T可以在上面的基准上保持实时多对象速度。我们在第三种大规模视频对象分割挑战中排名第一。该代码将公开可用

Aligning Pretraining for Detection via Object-Level Contrastive Learning
Authors Fangyun Wei, Yue Gao, Zhirong Wu, Han Hu, Stephen Lin
图像级对比表示学习已被证明是作为转移学习的通用模型非常有效。然而，如果我们对某个下游任务感兴趣，因此转让学习的这种普遍性牺牲了特异性。我们认为这可能是次优的，因此提倡一个设计原则，鼓励自我监督的借口任务和下游任务之间的对齐。在本文中，我们用专门为物体检测任务专门设计的预介绍方法遵循这一原理。我们在以下三个方面实现对齐1，1对象级别表示通过选择性搜索限定框引入作为对象提案2，预先预测网络架构包含在检测管道中使用的相同专用模块。 FPN 3预介绍配备了对象检测属性，例如对象级别转换不变性和缩放不变性。我们的方法称为选择性对象对比学习SoCO，实现了使用掩模R CNN框架对CoCo检测的传递性能的最新的状态。将提供代码和模型。

MERLOT: Multimodal Neural Script Knowledge Models
Authors Rowan Zellers, Ximing Lu, Jack Hessel, Youngjae Yu, Jae Sung Park, Jize Cao, Ali Farhadi, Yejin Choi
作为人类，我们了解视觉世界中的活动背景，在时间上进行多式化推理，以便对过去，现在和未来进行推论。我们介绍了Merlot，这是一种通过观看数百万个YouTube视频来学习多模脚本知识，在完全标记的自由，自我监督的方式中观看数百万个YouTube视频。通过覆盖帧级空间和视频级时间目标的混合，我们的模型不仅可以匹配图像到时间对应的单词，还可以在全球范围内上下文化。结果，Merlot在时间致辞中的盒子表示中展出强大，并且在Fineetuned时在12个不同的视频QA数据集上实现了最新的现有性能。它还对静态图像的世界进行转移，允许模型引起视觉场景背后的动态背景。在Visual Commansense推理中，Merlot以80.6精度正确地回答问题，优于相似尺寸的最佳状态，相似的尺寸超过3，即使是那些借助辅助监督数据，如物体边界框。

Light Field Networks: Neural Scene Representations with Single-Evaluation Rendering
Authors Vincent Sitzmann, Semon Rezchikov, William T. Freeman, Joshua B. Tenenbaum, Fredo Durand
从2D观察结果推断3D场景的表示是计算机图形，计算机视觉和人工智能的基本问题。新兴的3D结构性神经场景表示是3D场景理解的有希望的方法。在这项工作中，我们提出了一种新颖的神经场景表示，光现场网络或LFN，其代表了通过神经隐式表示参数化的360度的基础3D场景的几何和外观。从LFN渲染光线只需要一个网络评估，而不是每次射线的数百个评估，用于3D结构化神经场景表示中的光线游行或基于体积的渲染器。在简单的场景的设置中，我们利用Meta学习来学习在LFN之前的先前，使得可以从单个图像观察到多视图一致的光场重建。这导致时间和内存复杂性的显着减少，并且可以实时渲染。通过LFN存储360度光场的成本是比诸如Lumigraph的传统方法的两个数量级。利用神经隐式表示的分析可分性和光空间的新颖参数化，我们进一步展示了来自LFN的稀疏深度图的提取。

Pose and Semantic Map Based Probabilistic Forecast of Vulnerable Road Users' Trajectories
Authors Viktor Kress, Fabian Jeske, Stefan Zernetsch, Konrad Doll, Bernhard Sick
在本文中，提出了一种概率轨迹预测的方法，介绍了弱势道路用户VRU，其考虑了过去的运动和周围的场景。过去的运动由3D姿势表示，反映各个身体部位的姿势和移动。周围的场景以语义地图的形式为模型，例如，街道，人行道和障碍物的发生。在网格中生成预测，在离散空间和任意离散概率分布的形式下。分布在其可靠性，清晰度和位置准确性方面进行评估。我们将我们的方法与一种方法进行比较，该方法提供高斯分布形式的预测，并讨论各自的优缺点。因此，我们调查使用姿势和语义地图的影响。通过一种称为空间标签平滑的技术，我们的方法可以实现可靠的预测。总体而言，姿势对预测产生了积极影响。语义地图提供了使概率分布适应个人情况的机会，尽管在考虑的预测时间范围内为2.52秒，它们与VRU的过去的动作相比，它们发挥了次要作用。我们的方法在使用研究车辆中录制的数据集进行评估。数据集公开可用。

Self-Supervised Learning of Domain Invariant Features for Depth Estimation
Authors Hiroyasu Akada, Shariq Farooq Bhat, Ibraheem Alhashim, Peter Wonka
我们解决了无监督的合成问题，以进行单幅图像深度估计的现实域适应。单个图像深度估计的基本构建块是编码器解码器任务网络，其将RGB图像作为输入，并产生作为输出的深度映射。在本文中，我们提出了一种新颖的培训策略来强制任务网络以自我监督方式学习域不变的表示。具体而言，我们从传统代表学习中扩展了自我监督的学习，它从单个域中的图像上工作，到域不变表示学习，它通过利用图像到图像转换网络来处理来自两个不同域的图像。首先，我们使用我们的双向图像来图像翻译网络，以转移合成和实体域之间的域特定样式。这种风格传输操作允许我们从不同的域获得类似的图像。其次，我们共同培训我们的任务网络和暹罗网络与来自不同域的相同图像，以获得任务网络的域不变性。最后，我们使用标有合成和未标记的现实世界数据来调整任务网络。我们的培训策略产生了现实世界领域的普遍性能力。我们对两种流行的数据集进行了广泛的评估，用于深度估计，基蒂和Make3D。结果表明，我们所提出的方法在定性和定量上优于本领域的状态。将提供源代码和模型权重。

BERT based sentiment analysis: A software engineering perspective
Authors Himanshu Batra, Narinder Singh Punn, Sanjay Kumar Sonbhadra, Sonali Agarwal
情感分析可以为软件工程中使用的工具以及API推荐系统和要使用的相关库提供合适的铅。在此上下文中，Senticr，Sentistrength SE等现有工具表现出低F1分数，可彻底击败部署此类策略的目的，从而有足够的性能改善范围。最近的进步表明，基于变压器的预训练模型例如，BERT，Roberta，Albert等在文本分类任务中显示出更好的结果。在此上下文之后，本研究探讨了基于BERTUB评论，JIRA评论和堆栈溢出帖子中的不同BERT的模型。本文提出了三种不同的策略来分析基于BERT的情感分析模型，其中在第一个策略中，基于BERT的预训练模型在第二策略中进行了很好的调整，该策略是从BERT VARIANTS开发的集合模型，并在第三次策略中蒸发了一个压缩模型使用伯特。实验结果表明，基于BERT的集合方法和压缩BERT模型在所有三个数据集上的F1测量的主要工具上通过612达到了改进。

AI Driven Road Maintenance Inspection
Authors Ratnajit Mukherjee, Haris Iqbal, Shabbir Marzban, Ahmed Badar, Terence Brouns, Shruthi Gowda, Elahe Arani, Bahram Zonooz
道路基础设施维护检验通常是劳动密集型和关键任务，以确保所有道路使用者的安全性。在这项工作中，我们提出了一种详细的方法来利用人工智能和计算机视觉中的技术技术的状态，以自动化维护检查子特设的相当大量，并降低劳动力成本。所提出的方法使用艺术计算机视觉技术的状态，例如对象检测和语义分割，以自动检查原代道路结构，如道路表面，标记，障碍护栏和交通标志。该模型主要在商业上可行的数据集上培训，并使用专有数据增强。我们展示了我们的AI模型不仅可以自动化和规模对原代道路结构的维护检查，而且与传统的手动检查相比，较高的召回。

Improve the Interpretability of Attention: A Fast, Accurate, and Interpretable High-Resolution Attention Model
Authors Tristan Gomez, Suiyi Ling, Thomas Fr our, Harold Mouch re
采用关注机制的普遍率引起了对注意力分布的可解释性的担忧。虽然它提供了关于模型如何运行的见解，但利用人们的注意力，因为模型预测的解释仍然是非常可疑的。社区仍在寻求更具可言论的策略，以便更好地识别为最终决定做出贡献的最大贡献。为提高现有关注模式的可解释性，我们提出了一种新颖的双线性代表非参数占据BR NPA策略，旨在捕获任务相关人体可解释信息。首先蒸馏目标模型以具有更高分辨率的中间特征图。从中，基于本地成对特征相似性分组代表特征，以产生更精细的粒度，更精确的注意图突出显示输入的任务相关部分。所获得的关注图根据复合特征的有效电平进行排序，这提供了关于突出区域的重要水平的信息。拟议的模型可以轻松调整各种现代深层模型，其中涉及分类。它也更准确，更快，并且具有比通常的神经关注模块更小的内存占用。与多个任务的艺术可视化模型的状态相比，广泛的实验展示了更全面的视觉解释，包括少量拍摄分类，人物重新识别，细粒度的图像分类。拟议的可视化模型揭示了神经网络如何在不同任务中不同地关注他们的注意力。

CAFLOW: Conditional Autoregressive Flows
Authors Georgios Batzolis, Marcello Carioni, Christian Etmann, Soroosh Afyouni, Zoe Kourtzi, Carola Bibiane Sch nlieb
我们介绍了Caflow，一个新的不同图像到图像翻译模型，同时利用了自动回归建模的力量和条件归一化流动的建模效率。我们使用多刻度标准化流程将调节图像转换为潜在编码序列，并重复调节图像的处理。我们通过利用有效的多尺度标准化流程来模拟自动回归分布来模拟潜在编码的条件分布，其中每个调节因子在其各自的分辨率比例下影响图像合成。我们所提出的框架在一系列图像中表现良好到图像转换任务。由于其表达式的自动回归结构，它优于前一种条件流的设计。

RoadMap: A Light-Weight Semantic Map for Visual Localization towards Autonomous Driving
Authors Tong Qin, Yuxin Zheng, Tongqing Chen, Yilun Chen, Qing Su
准确的本地化对于自主驾驶任务至关重要。如今，我们已经看到了很多传感器丰富的车辆。 Robo出租车在街道上自动驾驶，依赖于高精度传感器。 LIDAR和RTK GPS和高分辨率图。但是，低成本生产汽车在传感器和地图上无法负担这么高的费用。如何降低成本如何如何进行传感器富有车辆在本文中有利于低成本的汽车，我们提出了一种轻量级的定位解决方案，依赖于低成本摄像机和紧凑的视觉语义地图。通过传感器丰富的车辆以人群采购方式轻松生产和更新地图。具体地，地图由几个语义元素组成，例如车道线，人行横道，地面标志和路面上的停止线。我们介绍了车辆映射的整个框架，云维护和用户结局定位。收集地图数据并预处理车辆。然后，人群源数据上载到云服务器。来自多辆车的质量数据在云上合并，以便及时更新语义地图。最后，语义地图被压缩和分发到生产车，该车辆使用该地图进行本地化。我们验证了现实世界实验中提出的地图的表现，并将其与其他算法进行比较。语义地图的平均大小为36 kb km。我们强调这一框架是自主驾驶的可靠和实用的本地化解决方案。

Hallucination In Object Detection -- A Study In Visual Part Verification
Authors Osman Semih Kayhan, Bart Vredebregt, Jan C. van Gemert
我们表明对象探测器可以幻觉和检测缺失的物体，甚至可以在预期的预期准确地定位，但不存在位置。对于依赖于视觉部件验证检测的应用，这对于存在对象部分存在或不存在，这尤其有问题。我们展示了对象探测器在视觉零件验证任务中幻觉对象的流行性对象，并介绍了具有10,000辆自行车照片的第一款视觉零件验证数据集DELFTBIKES，每个图像有22个密集的零件，其中一些部件可能丢失。我们明确地注释了每个部件的额外对象状态标签，以反映一部分丢失或完整。我们建议通过依赖召回并比较Delftbikes上的流行对象探测器来评估视觉部件验证。

Semantic Correspondence with Transformers
Authors Seokju Cho, Sunghwan Hong, Sangryul Jeon, Yunsung Lee, Kwanghoon Sohn, Seungryong Kim
我们提出了一种新的成本聚合网络，称为变形金刚猫的成本聚集，在语义类似的图像之间找到密集的相应与大型类别外观和几何变化所带来的额外挑战。与以前的手工制作或基于CNN的方法相比，寻址成本聚合阶段，它缺乏严重变形的鲁棒性或继承了由于接受领域有限而无法区分不正确的匹配的CNN的限制，猫探讨了与之初始相关图之间的全球共识一些建筑设计的帮助，使我们能够利用自我关注机制的全部潜力。具体地，我们包括外观关联建模以消除初始相关图和多级聚合，从基于变压器基的聚合器中的分层特征表示中受益，并与交换自我注意和剩余连接相结合，不仅要强制执行匹配，还可以缓解学习过程。我们进行实验，以证明拟议模型在最新方法中的有效性，并提供广泛的消融研究。代码和培训的型号将可用

The Image Local Autoregressive Transformer
Authors Chenjie Cao, Yuxin Hong, Xiang Li, Chengrong Wang, Chengming Xu, XiangYang Xue, Yanwei Fu
最近，变形金刚赋予的整个图像的自回归AR模型对生成的对抗网络GAN进行了可比或甚至更好的性能。不幸的是，直接应用这种AR模型来编辑改变本地图像区域，可能遭受缺少全局信息，慢推迟速度和本地指导的信息泄漏的问题。为了解决这些限制，我们提出了一种新颖的模型图像本地自回归变压器ILAT，以更好地促进局部引导的图像合成。我们的伊拉特学会了新的本地离散表示，通过新提出的本地自回洛杉矶变压器的注意面罩和卷积机制。因此，ILAT可以通过关键指导信息有效地合成局部图像区域。我们的ILAT在各种局部引导的图像合成上进行评估，例如姿势引导人物图像合成和面部编辑。定量和定性结果均显示了我们模型的功效。

ADTrack: Target-Aware Dual Filter Learning for Real-Time Anti-Dark UAV Tracking
Authors Bowen Li, Changhong Fu, Fangqiang Ding, Junjie Ye, Fuling Lin
现有相关滤波器CF基于无人航空车辆的CF跟踪方法，无人机实际上专注于在白天跟踪。但是，当夜间跌倒时，跟踪器将遇到更多的恶劣场景，这很容易导致跟踪失败。在这方面，这项工作提出了一种具有抗暗功能Adtrack的新型跟踪器。该方法的方法将高效且有效的低光图像增强器集成到基于CF的跟踪器中。此外，借助于图像照明变化同时产生目标意识掩模。目标意识掩模可以应用于联合训练目标聚焦滤波器，该滤镜有助于上下文过滤器进行鲁棒跟踪。具体地，Adtrack采用双重回归，其中上下文过滤器和目标聚焦滤波器彼此限制为双滤波器学习。在典型的黑暗风景基准上进行详尽的实验，由来自权威基准的37个典型的夜晚序列组成，即，Uavdark以及我们新构建的基准Uavdark70。结果表明，Adtrack有利地优于艺术跟踪器的其他状态，并在单个CPU上实现了34帧S的实时速度，大大扩展到夜幕往返夜景。

A New Gastric Histopathology Subsize Image Database (GasHisSDB) for Classification Algorithm Test: from Linear Regression to Visual Transformer
Authors Weiming Hu, Chen Li, Xiaoyan Li, Haoyuan Chen, Wanli Liu, Changhao Sun, Marcin Grzegorzek
Gashissdb是一种新的胃组织病理学，归结了一个总共245196个图像的图像数据库。 Gashissdb分为160个160像素子数据库，120 120像素子数据库和80 80像素子数据库。 GashissdB是实现重估图像分类的功能。为了证明图像分类领域的不同时期的方法对GashissDB具有差异，我们选择各种分类器进行评估。七种古典机器学习分类器，三个CNN分类器和新颖的变压器基于基于变压器的分类器，用于在图像分类任务上进行测试。 Gashissdb在URL上提供

NMS-Loss: Learning with Non-Maximum Suppression for Crowded Pedestrian Detection
Authors Zekun Luo, Zheng Fang, Sixiao Zheng, Yabiao Wang, Yanwei Fu
非最大抑制NMS对于对象检测至关重要，并通过将误报FP和假阴性FN结合，尤其是在人群闭塞场景中来影响评估结果。在本文中，我们提出了培训目标与NMS引起的评估指标的弱连接问题，并提出了一种新的NMS丢失，使得NMS程序可以训练结束而没有任何额外的网络参数。我们的NMS损失惩罚两种情况下FP没有抑制，并且NMS错误地消除了FN。具体地，我们提出了一种拉动损失，以利用彼此靠近的相同目标提取预测，并且推动损耗以将不同的目标彼此远离预测。实验结果表明，借助NMS损失，我们的探测器，即NMS PED，在CALTECH DataSet上的5.92号错过率和10.08上的CityPersons DataSet上的令人印象深刻的结果，这些结果比艺术竞争对手更好。

A Deep Local and Global Scene-Graph Matching for Image-Text Retrieval
Authors Manh Duy Nguyen, Binh T. Nguyen, Cathal Gurrin
图像文本检索的传统方法主要关注索引在图片中出现的视觉对象，但忽略这些对象之间的交互。此类对象出现和交互在此字段中等效并且重要，因为通常在文本中提及它们。场景图表呈现是图像文本匹配挑战的合适方法，并且由于其捕获跨关系信息的能力而获得了良好的结果。图像和文本都在场景图级别中表示，并将检索挑战制定为匹配挑战的场景图。在本文中，我们介绍了本地和全局场景图匹配LGSGM模型，通过集成额外的图形卷积网络来捕获图形的一般信息来增强现有技术的状态。具体地，对于图像的一对场景图和其标题，两个单独的模型用于学习每个曲线图S节点和边缘的特征。然后采用暹罗结构图卷积模型将图形嵌入到矢量形式中。我们终于结合了图形级别和向量级别来计算此图像文本对的相似性。经验实验表明，我们的增强与水平的组合可以通过在FlickR30K数据集上增加召回超过10的召回来改善基线方法的性能。

DOCTOR: A Simple Method for Detecting Misclassification Errors
Authors Federica Granese, Marco Romanelli, Daniele Gorla, Catuscia Palamidessi, Pablo Piantanida
深度神经网络DNNS已经显示出在大规模对象识别问题上表现得非常好，并导致对现实世界应用的广泛使用，包括DNN实现为黑匣子的情况。一种有希望的保护他们使用的方法是接受可能在丢弃其他方面可能是正确的决定。在这项工作中，我们提出了一种旨在识别DNN分类器的预测的简单方法，从而可以信任，因此，可以接受或拒绝它。调查了两个场景完全黑匣子TBB，只有软预测可用，允许允许执行输入预处理的梯度传播的部分黑盒PBB。凭经验，我们表明医生在各种众所周知的图像和情绪分析数据集上占据所有最先进方法的所有状态。特别是，我们观察PBB情景中最多4个错误拒绝率FRR。医生可以应用于任何预先训练的模型，它不需要有关底层数据集的先前信息，并且与文献中最简单的可用方法一样简单。

A Survey on Deep Domain Adaptation for LiDAR Perception
Authors Larissa T. Triess, Mariella Dreissig, Christoph B. Rist, J. Marius Z llner
用于自动化驾驶的可扩展系统必须可靠地应对开放的世界环境。这意味着，感知系统暴露于剧烈域移位，如天气条件，时间依赖性方面或地理区域的变化。由于域的无限变体和耗时且昂贵的注释过程，覆盖带注释数据的所有域都是不可能的。此外，系统的快速开发周期还在另外引入硬件变化，例如传感器类型和车辆设置，以及从仿真中所需的知识转移。为了实现可扩展的自动化驱动，因此以稳健且有效的方式解决这些域移位是至关重要的。在过去几年中，大量不同的域适应技术演变。在相机图像上已经存在许多调查文件，但是，缺席了激光乐歌感知的调查。然而，LIDAR是一种用于自动驾驶的重要传感器，可提供车辆周围环境的详细3D扫描。为了刺激未来的研究，本文提出了对域适应方法的最新进展的全面审查，并制定了专门针对激光雷达感知的有趣研究问题。

SOLQ: Segmenting Objects by Learning Queries
Authors Bin Dong, Fangao Zeng, Tiancai Wang, Xiangyu Zhang, Yichen Wei
在本文中，我们建议结束到实例分割的结束框架。基于最近介绍的DETR 1，我们的方法，通过学习统一查询来称之为Solq，Segments对象。在Solq中，每个查询表示一个对象，并且具有多个表示类，位置和掩码。对象查询学习以统一的矢量表单同时执行分类，框回归和掩码编码。在训练阶段期间，编码的掩模矢量被原始空间掩模的压缩编码监督。在推理时间中，通过压缩编码的逆过程可以直接转换为空间掩模的掩模向量。实验结果表明，Solq可以实现最新的现有性能，超越大多数现有方法。此外，统一查询表示的联合学习可以大大提高原始DETR的检测性能。我们希望我们的SOLQ可以作为变压器的实例分割作为强大的基线。代码可用

F-Drop&Match: GANs with a Dead Zone in the High-Frequency Domain
Authors Shin ya Yamaguchi, Sekitoshi Kanai
由深度卷积神经网络建立的生成对抗网络缺乏精确复制自然图像的高频分量的能力。为了缓解这个问题，我们介绍了两种称为频率掉落F滴和频率匹配F匹配的新型训练技术。 F滴的关键思想是从鉴别器的输入图像过滤出不必要的高频分量。这种简单的修改可防止鉴别器通过高频分量的扰动混淆。此外，F DROP使GANS专注于拟合低频域，其中有自然图像的主要成分。 F匹配最大限度地减少频域中的实际图像与虚假图像之间的差异，以产生更现实的图像。 F匹配在生成器的目标函数中实现为正则化术语，它惩罚频域中的批处理均值误差。 F匹配帮助发电机适合由F滴到真实图像过滤的高频域。我们通过实验证明F滴和F匹配的组合可以提高多个图像基准CiFar，TinyImagenet，STL 10，Celeba和ImageNet的频率和空间域中GAN的生成性能。

ASCNet: Self-supervised Video Representation Learning with Appearance-Speed Consistency
Authors Deng Huang, Wenhao Wu, Weiwen Hu, Xu Liu, Dongliang He, Zhihua Wu, Xiangmiao Wu, Mingkui Tan, Errui Ding
我们研究了自我监督的视频表示学习，这是一个具有挑战性的任务，因为1缺乏明确监督和2个非结构化和嘈杂的视觉信息。现有方法主要使用视频剪辑作为实例的对比损失，并通过识别彼此的实例来学习视觉表示，但是通过依赖大量批量尺寸，记忆库，额外的方式或定制的采矿策略，他们需要仔细治疗负对对的否定对包括嘈杂的数据。在本文中，我们观察到阳性样本之间的一致性是学习鲁棒视频表示的关键。具体而言，我们提出了两个任务来学习外观和速度一致性。外观一致性任务旨在最大化与不同播放速度相同视频的两个剪辑之间的相似性。速度一致性任务旨在最大化两个剪辑之间的相似性，其具有相同的播放速度而是不同的外观信息。我们表明，两项任务的联合优化一致地提高了下游任务的性能，例如，动作识别和视频检索。值得注意的是，对于在UCF 101数据集上的行动识别，我们实现了90.8的准确性，而无需使用任何额外的模当或负对对的无监督预测，优于Imagenet监督预训练模型。可以使用代码和模型。

Temporally coherent video anonymization through GAN inpainting
Authors Thangapavithraa Balaji, Patrick Blies, Georg G ri, Raphael Mitsch, Marcel Wasserer, Torsten Sch n
这项工作解决了自然视频流中的时间相干面对晶文的问题。我们提出了一个双阶段系统，从视频的所有单独帧中的黑色图像贴片中的检测和掩盖脸部。第二阶段利用隐私保留视频生成的对抗网络，该网络设计用于与人工产生的面部内缺失的图像贴片。我们的初始实验表明，基于图像的生成模型不能透露在相邻视频帧上显示时间相干外观的贴片。为了解决这个问题，我们介绍了一个新策划的视频集合，该录像集是公开可供研究的研究界。我们还将身份不变性得分IDI介绍为量化相邻帧之间的时间一致性的方法。

Hybrid attention network based on progressive embedding scale-context for crowd counting
Authors Fusen Wang, Jun Sang, Zhongyuan Wu, Qi Liu, Nong Sang
现有的人群计数方法通常采用关注机制来解决背景噪声，或应用多层特征或多尺度上下文融合来解决尺度变化。但是，这些方法分别处理这两个问题。在本文中，我们通过采用渐进式嵌入量表上下文PES信息提出混合注意力网络汉族，这使得网络能够同时抑制噪声并适应头比例变化。我们通过平行空间关注和通道注意模块来构建混合注意力机制，这使得网络将更多地关注人头区域并减少背景对象的干扰。此外，我们沿着空间和通道尺寸嵌入了某些规模的上下文，以减轻由透视和头部比例的变化引起的这些计数误差。最后，我们通过级联具有嵌入不同尺度上下文的多个混合注意力模块来提出逐行学习策略，这可以逐渐将不同的尺度上下文信息逐渐与全局到本地集成到当前的特征映射中。消融实验规定，网络架构可以逐步学习多尺度特征并抑制背景噪声。广泛的实验表明，Hanet在四个主流数据集中获得了最先进的表现性能。

Few-Shot Segmentation via Cycle-Consistent Transformer
Authors Gengwei Zhang, Guoliang Kang, Yunchao Wei, Yi Yang
很少有镜头分割旨在训练分割模型，可以快速适应具有少量示例的新型课程。传统的训练范例是学习对从支持图像的特征上的查询图像进行预测。以前的方法仅利用了支持图像的语义级别原型作为条件信息。这些方法不能利用用于查询预测的所有像素WISE支持信息，但是对于分割任务来说是至关重要的。在本文中，我们专注于利用支持和目标图像之间的像素方面的关系，以便于少量拍摄语义分段任务。我们设计一种新的周期一致的变压器Cyctr模块，将像素明智的支持功能聚合到查询中。 Cyctr在来自不同图像的特征之间进行跨关注，即支持和查询图像。我们观察到可能存在意外的无关像素级别支持特征。直接执行跨关注可以将这些功能从支持汇总到查询和偏置查询功能。因此，我们建议使用新的周期一致的关注机制来滤除可能的有害支持特征，并鼓励查询特征来从支持图像中参加最具信息性的像素。关于所有拍摄分割基准测试的实验表明，与先前的现有技术相比，我们所提出的CyctR导致显着的改进。具体而言，在Pascal 5 I和Coco 20 I数据集上，我们达到66.6和45.6 Miou进行5次射击分割，优于4.6和7.1的先前现有技术。

MASA-SR: Matching Acceleration and Spatial Adaptation for Reference-Based Image Super-Resolution
Authors Liying Lu, Wenbo Li, Xin Tao, Jiangbo Lu, Jiaya Jia
基于参考的图像超分辨率Refsr通过利用外部参考图像Ref，在恢复高频细节方面显示了有希望的成功。在此任务中，根据其点或修补程序对应关系将纹理细节从REF图像传送到低分辨率LR图像。因此，高质量的对应匹配是至关重要的。还希望计算效率。此外，现有的REFSR方法倾向于忽略LR和REF图像之间的分布中的潜在大的差异，这伤害了信息利用的有效性。在本文中，我们提出了用于Refsr的MASA网络，其中两种新型模块旨在解决这些问题。所提出的匹配提取模块通过粗略对应匹配方案显着降低了计算成本。空间适配模块学习LR和REF图像之间分布的差异，并以空间自适应方式重写参考特征的分布到LR特征。该方案使网络能够处理不同的参考图像。广泛的定量和定性实验验证了我们所提出的模型的有效性。

Tackling the Background Bias in Sparse Object Detection via Cropped Windows
Authors Leon Amadeus Varga, Andreas Zell
无人机无人机对象检测仍然是一个具有挑战性的任务。录音大部分稀疏，只包含小物体。在这项工作中，我们提出了一种简单的平铺方法，可以提高遥感案例中的检测能力而不修改模型本身。通过减少背景偏差并在训练期间能够使用更高的图像分辨率，我们的方法可以大大提高模型的性能。该过程在三个不同的数据集上验证，并且性能和速度的表现优于相似的方法。

Subdivision-Based Mesh Convolution Networks
Authors Shi Min Hu, Zheng Ning Liu, Meng Hao Guo, Jun Xiong Cai, Jiahui Huang, Tai Jiang Mu, Ralph R. Martin
卷积神经网络CNNS在2D计算机视觉中取得了很大的突破。然而，网状物的不规则结构使得难以直接利用CNN的功率。细分表面提供分层多分辨率结构，并且闭合的2歧管三角网格中的每个面正恰好地与三个面相邻。本文推出了这两个属性的动机，介绍了一个名为SubDivnet的新颖和灵活的CNN框架，用于具有环路细分序列连接的3D三角形网格。在2D图像中的网格面和像素之间进行类比允许我们呈现网状卷积操作者以聚合来自相邻面的局部特征。通过利用面部街区，这种卷积可以支持标准的2D卷积网络概念，例如，可变内核大小，步幅和扩张。基于多分辨率层次结构，我们提出了一种空间均匀汇集层，其将四个面合并到一个和上采样方法中，并将一个面分为四个。结果，许多流行的2D CNN架构可以容易地适应处理3D网格。可以回忆具有任意连接的网格，以通过自我参数化保持环形细分序列连接，使子变量是一般的方法。来自现实世界的网格分类，分割，通信和检索的实验证明了子地点的有效性和效率。

Human-Adversarial Visual Question Answering
Authors Sasha Sheng, Amanpreet Singh, Vedanuj Goswami, Jose Alberto Lopez Magana, Wojciech Galuba, Devi Parikh, Douwe Kiela
最常用的视觉问题的性能在接听数据集VQA V2上开始接近人类准确性。然而，在与现有技术的互动模式中的互动中，显然问题远未解决。为了压力测试VQA模型，我们将它们与人对抗例子进行基准。人类受试者与现有技术的状态交互，并且对于数据集中的每个图像，尝试找到模型S预测答案不正确的问题。我们发现，当在这些示例上评估时，美术模型的广泛状态不佳。我们对收集的对抗性示例进行了广泛的分析，并为未来的研究方向提供了指导。我们希望这个对抗的VQA Advqa基准测试可以帮助推动现场的进步并推进现有技术。

Glance-and-Gaze Vision Transformer
Authors Qihang Yu, Yingda Xia, Yutong Bai, Yongyi Lu, Alan Yuille, Wei Shen
最近，出现了一系列视觉变压器，这表明卓越的性能，比传统的卷积神经网络更紧凑的模型尺寸，由于变压器模拟了长距离依赖性的强大能力。然而，视觉变压器的优点也具有自我关注的价格，变压器的核心部分对输入序列长度具有二次复杂性。这导致计算和内存成本的显着增加，随着序列长度的增加，在将变压器应用于基于高分辨率特征映射时需要致密预测的视觉任务时引入困难。在本文中，我们提出了一种新的视觉变压器，命名浏览和凝视变压器GG变压器，以解决上述问题。在识别自然场景中的物体时，它是人类的瞥见和凝视行为，能够有效地模拟长距离依赖性和本地环境。在GG变压器中，通过两个平行的分支实现透气和凝视行为，通过对输入的自适应扩张的分区来实现自我注意，这导致线性复杂性，同时仍然享受凝视分支的全局接收领域由一个简单的深度明智的卷积层实现，这补偿了通过透明机制获得的本地图像上下文。我们经验证明我们的方法在各种愿景任务和基准上实现了以前的最先前的艺术变压器状态的卓越性能。将提供代码和模型

Ukiyo-e Analysis and Creativity with Attribute and Geometry Annotation
Authors Yingtao Tian, Tarin Clanuwat, Chikahiko Suzuki, Asanobu Kitamoto
对现代日本艺术的一个重要类型的重要类型，互联网的研究侧重于其他艺术作品研究的对象和风格。此类研究已从文化重要主题中获益于机器学习界的重新兴趣，导致跨学科作品，包括图像，定量方法和基于机器学习的创造力。然而，他们有几个缺点，将这些工作整合到全面的观点仍然挑战。为了弥合这一差距，我们提出了一种整体方法，我们首先提出一个具有连贯语义标签和几何注释的大规模Ukiyo E数据集，然后在使用这些标签和注释的Ukiyo E绘画对象的定量研究中显示其价值。我们进一步证明了机器学习方法可以通过Ukiyo E的软颜色分解来帮助风格研究，最后通过使用着色化构成草图和颜色来为物体和风格提供联合洞察。数据集可用

Exploring Adversarial Learning for Deep Semi-Supervised Facial Action Unit Recognition
Authors Shangfei Wang, Yanan Chang, Guozhu Peng, Bowen Pan
目前的作品制定面部行动单位AU认可作为监督学习问题，在训练期间需要完全AU标记的面部图像。如果没有不可能为大量面部图像提供AU注释，则挑战。幸运的是，AUS出现在所有面部图像上，无论是手动标记还是不，都满足潜在的解剖机制和人类行为习惯。在本文中，我们向部分AU标记的面部图像提出了一种深度半监督框架，用于部分AU标记的面部图像。具体而言，所提出的深度半监控AU识别方法包括一个深度识别网络和鉴别者D.深度识别网络R从有限地面真理AU标签中了解来自大规模面部图像和AU分类器的面部表示。引入鉴别器D以在地面真理AU标签中固有的Au分布与来自标记和未标记的面部图像的预测的AU标签的分布之间强制统计相似性。深度识别网络旨在最大限度地减少标记的面部图像的识别损失，忠实地代表标记和未标记的面部图像的固有的AU分布，并混淆鉴别器。在培训期间，深度识别网络R和鉴别器D交替进行优化。因此，由底层解剖机制引起的固有的AU分布被利用以在训练期间从部分AU标记数据构造更好的特征表示和AU分类器。两个基准数据库的实验表明，所提出的方法通过对抗学习和优于艺术艺术识别工作的状态成功地捕获了Au分布。

Visual Question Rewriting for Increasing Response Rate
Authors Jiayi Wei, Xilian Li, Yi Zhang, Xin Wang
当人类在线提出问题时，或者在会话虚拟代理人询问人类问题时，引发情绪或细节的问题可能更有可能获得答复或答案。我们探索如何自动重写自然语言问题以提高人民的响应率。特别是，介绍了重写VQR任务的新任务以探索可视化信息如何用于改进新问题。收集包含大约4K个阵雨，有吸引力的问题和图像三元组的数据集。我们开发了一些基线序列来序列模型和基于更先进的变压器的模型，它采用了一个阵限和相关的图像作为输入，输出预期的重写问题更具吸引力。离线实验和基于机械土耳其的评估表明，可以以更详细和更具吸引力的方式重写平淡的问题来增加响应率，并且图像可能会有所帮助。

X-volution: On the unification of convolution and self-attention
Authors Xuanhong Chen, Hang Wang, Bingbing Ni
卷积和自我关注在深神经网络中作为两个基本构建块，前者以线性方式提取本地图像特征，而后者非本地编码高阶上下文关系。虽然彼此基本互补，即第一阶高阶，艺术架构的统计数据，即CNN或变换器缺乏原则性的方式，以便在单个计算模块中同时应用两个操作，这是由于它们的异构计算模式和全球过度负担。用于视觉任务的点产品。在这项工作中，理论上我们从理论上推出了全局自我注意逼近方案，它通过转换特征的卷积操作来近似于自我注意。基于近似方案，我们建立了由卷积和自我注意操作组成的多分支基本模块，能够统一本地和非本地特征交互。重要的是，一旦接受训练，该多分支模块可以通过结构RE参数化将该多分支模块转换为单个标准卷积操作，渲染名为X卷的纯卷积样式操作员，随时可以插入任何现代网络作为原子操作。广泛的实验表明，提出的X卷，实现了高度竞争的视觉理解，改进了1.2在Imagenet分类上的前1个精度，1.7盒AP和1.5掩模AP上的Coco检测和分割。

History Encoding Representation Design for Human Intention Inference
Authors Zhuo Xu, Masayoshi Tomizuka
在这延长的摘要中，我们调查人类意图推理的学习表示的设计。在我们设计的人类意图预测任务中，我们提出了一种历史编码表示，其既可解释和有效的预测。通过广泛的实验，我们向我们的预测框架显示了历史编码表示设计成功的人类意图预测问题。

Barcode Method for Generative Model Evaluation driven by Topological Data Analysis
Authors Ryoungwoo Jang, Minjee Kim, Da in Eun, Kyungjin Cho, Jiyeon Seo, Namkug Kim
评估图像合成中生成模型的性能是一个具有挑战性的任务。尽管FR Chet初始距离是广泛接受的评估度量，但它将不同的方面与合成图像的保真度和分集集成到单个分数中并假设嵌入向量的正常性。最近的方法如精度和召回及其诸如密度和覆盖的变体，以基于K最近的邻域方法分离保真度和多样性。在这项研究中，我们提出了一种名为条形码的算法，该算法由拓扑数据分析的启发，并且几乎没有假设和超参数选择。在真实世界数据集的大量实验中以及高维正常样本的理论方法中，发现嵌入式矢量通常的正常假设具有几个缺点。实验结果表明，条形码优于评估GaN输出的保真度和多样性的其他方法。官方代码可以找到

Fine-Grained Visual Classification of Plant Species In The Wild: Object Detection as A Reinforced Means of Attention
Authors Matthew R. Keaton, Ram J. Zaveri, Meghana Kovur, Cole Henderson, Donald A. Adjeroh, Gianfranco Doretto
植物物种在野外的鉴定是一个难题，部分是由于输入数据的高可变性，而且由于数据集分布的长尾效应引起的并发症。灵感来自最新的细粒度的视觉分类方法，这些方法是基于注意数据变异性的影响，我们探讨了使用对象检测作为一种关注形式的想法。我们介绍了一种基于检测植物器官的自下而上的方法，并融合了基于器官的物种分类器的可变数量的预测。我们还策划具有长尾部分布的新数据集，用于评估植物器官检测和基于器官的物种鉴定，可公开可用。

Learning to Draw: Emergent Communication through Sketching
Authors Daniela Mihai, Jonathon Hare
目视通信前面的书面语言并为其追溯到史前的基础，以洞穴和岩石绘画描绘我们遥远的祖先的痕迹。紧急沟通研究试图探索代理商如何学习沟通，以便协作解决任务。现有研究专注于语言，具有学习的通信信道在代理之间传输离散令牌的序列。在这项工作中，我们探讨了允许使用简单笔划绘制的代理之间的可视通信通道。我们的代理商由深神经网络参数化，绘图程序是可微分的，允许结束结束培训。在参考沟通游戏的框架中，我们证明了代理商不仅可以成功学习通过绘图进行沟通，而是通过适当的归纳偏见，可以以人类可以解释的方式来这样做。我们希望鼓励未来的研究将视觉沟通视为培训协作代理人的更灵活和直接的可解释的替代品。

SOUP-GAN: Super-Resolution MRI Using Generative Adversarial Networks
Authors Kuan Zhang, Haoji Hu, Kenneth Philbrick, Gian Marco Conte, Joseph D. Sobek, Pouria Rouzrokh, Bradley J. Erickson
在临床和研究应用中，对高分辨率HR医学图像的需求不断增长。图像质量与采集时间不可避免地交易，以便更好的患者舒适，降低检查成本，剂量和更少的运动诱导的伪影。对于许多基于图像的任务，通常使用增加垂直平面中的表观分辨率来产生多平面重构或3D图像。单图像超分辨率SR是一种有希望的技术，可根据无监督学习提供基于无监督的学习以增加2D图像的分辨率，但是关于3D SR的报告很少。此外，在文献中提出了感知损失，以更好地捕获文本细节和边缘，而不是使用像素明智的函数，通过比较预训练的2D网络的高维特征空间中的语义距离，例如，VGG。但是，目前尚不清楚如何将其概括为3D医学图像，并且服务员的影响尚不清楚。在本文中，我们提出了一种称为汤GaN超级分辨率的框架，其使用感知调谐的生成对抗性网络GaN优化，以产生较薄的切片，例如，在Z平面医学图像中具有抗锯齿和去束的高分辨率。该方法在定性和定量比较方面优于其他常规分辨率增强方法和先前的SR工作。具体地，我们以各种SR比率和成像方式的概括地检查模型。通过解决这些限制，我们的模型显示了作为一种新型3D SR插值技术，在临床和研究中提供潜在的应用。

A Procedural World Generation Framework for Systematic Evaluation of Continual Learning
Authors Timm Hess, Martin Mundt, Iuliia Pliushch, Visvanathan Ramesh
已经提出了几个持续学习技术的家庭，以减轻非静止数据的深神经网络训练中的灾难性干扰。然而，由于合适数据集无法访问，全面的比较和分析仍然很大程度上是开放的。实证检查不仅在个体作品之间变化非常不等，它进一步依赖于通过细分和串联的各种普遍的静态视觉数据集进行基准的成分。在这项工作中，我们的目标是通过引入计算机图形仿真框架来弥合这一差距，这些框架在无尽的实时程序世界生成过程中重复越来越多的城市场景碎片。它的核心位于具有可适应的生成因子的模块化参数生成模型。后者可用于灵活地构图数据流，这显着促进了详细的分析，并允许轻松调查各种连续学习方案。

Controlling False Positive/Negative Rates for Deep-Learning-Based Prostate Cancer Detection on Multiparametric MR images
Authors Zhe Min, Fernando J. Bianco, Qianye Yang, Rachael Rodell, Wen Yan, Dean Barratt, Yipeng Hu
前列腺癌PCA是全球男性死亡原因之一。多参数磁共振MPMR成像作为非侵入性诊断工具，用于通过专门的放射科医师检测和定位前列腺肿瘤。这些放射检查，例如，用于区分从过渡区的良性前列腺增生和定义临床显着癌症的界限的恶性病变，保持挑战性和高度技巧和经验依赖。我们首先调查使用这些高方差标签进行培训的对象检测神经网络的实验结果，以预测要预测放射学评估。我们进一步讨论了这样的计算机辅助诊断CAD系统需要能够控制错误阳性率FPR或假负速率FNR，以便在临床工作流程中有效地部署，告知临床决策而无需进一步的人为干预。这项工作提出了一种新颖的PCA检测网络，其包括基于对切片映射函数的病变的病变水平成本敏感损失和额外的切片水平损失，分别管理病变和切片水平成本。我们基于290临床患者的实验得出结论，1损伤水平FNR从0.19％降低到0.10，并且通过改变病变水平成本2从1.03降低到0.66，减少了切片水平FNR从0.19降低0.19至0.00考虑到切片水平成本3，由于使用网络的训练后阈值调整，而无需提出的成本意识培训，因此通过改变病变水平或切片水平成本减少了病变水平和切片水平FNR。

Covering Polygons is Even Harder
Authors Mikkel Abrahamsen
在最小凸盖MCC问题中，我们被给出了一个简单的多边形Mathcal p和整数k，问题是如果存在的k个凸形多边形，其联盟是Mathcal p。众所周知，MCC是Mathsf NP硬质Culberson Reckhow覆盖多边形很难，Focs 1988算法1994年，存在Mathbb R O Rourke计算最小凸盖的多边形，Allerton 1982的复杂性。我们证明了MCC仍然存在MathBB r，因此存在MathBB r完成的问题。换句话说，问题相当于决定多项式方程和具有整数系数的不等式是否具有真实解决方案。

RL-DARTS: Differentiable Architecture Search for Reinforcement Learning
Authors Yingjie Miao, Xingyou Song, Daiyi Peng, Summer Yue, Eugene Brevdo, Aleksandra Faust
我们介绍了RL Darts，其中一个可怜的架构搜索飞镖在加固学习RL中搜索卷积电池，应用于Procgen基准。我们概述了在RL中应用神经结构搜索技术的初步困难，并证明通过简单地用飞镖超空网替换图像编码器，我们的搜索方法是样本高效，需要最小的额外计算资源，并且也与关键零件兼容策略RL算法，仅需要预先存在的代码的次要更改。令人惊讶的是，我们发现Supernet可以用作推理的演员，以在标准RL训练循环中生成重放数据，从而将阵列结束结束。在整个培训过程中，我们表明Supernet逐渐学习更好的细胞，导致替代架构，这可能对手动设计的策略具有竞争力，但还验证了RL策略的先前设计选择。

Specular reflections removal in colposcopic images based on neural networks: Supervised training with no ground truth previous knowledge
Authors Lauren Jimenez Martin, Daniel A. Vald s P rez, Ana M. Solares Asteasuainzarra, Ludwig Leonard, Marta L. Baguer D az Roma ach
宫颈癌是一种恶性肿瘤，严重威胁着女性的健康，是影响全世界的妇女的最常见之一。对于早期检测，子宫颈的阴道镜图像用于寻找可能的伤害或异常。这些图像的固有特征是存在镜面反射亮度，使得难以观察一些区域，这可能意味着误诊。本文介绍了一种基于神经网络的新策略，用于消除镜面反射并估计明亮区域下的未观察到的解剖子部分。我们提出了一种监督的学习方法，尽管没有从一开始就知道实际真相，基于培训神经网络来学习如何恢复任何隐藏的阴道镜图像区域。一旦识别镜面反射，就会从图像中移除它们，并且先前训练的网络用于满足这些删除的区域。定量和定性地评估处理图像的质量。在21个评估的图像中，检测到的镜面反射完全消除，而在其余的镜面中，几乎完全消除了这些反射。颜色的分布和恢复的图像的内容与原始图像的分布类似。宫颈病理学中专家进行的评价得出结论，在消除镜面反射之后，宫颈的解剖学和生理元素在恢复的图像中可观察到，这促进了宫颈病理的医学诊断。我们的方法有可能改善宫颈癌的早期检测。

Analysis of the robustness of NMF algorithms
Authors Alex D az, Damian Steele
我们检查三个非负矩阵分解技术L2标准，L1标准和L2,1规范。我们的目标是建立这些不同方法的性能，以及其在实际世界应用中的稳健性，例如特征选择，同时管理计算复杂性，对噪声的敏感性和更多。我们从理论透视彻底检查了每种方法，并使用一系列实验在orl和yaleb数据集上绘制的每个实验来检查每个方法。我们在一系列模拟噪声场景下检查相对重建误差RRE，平均精度和归一化互信息NMI作为标准。

CNNs and GANs in MRI-based cross-modality medical image estimation
Authors Azin Shokraei Fard, David C. Reutens, Viktor Vegh
跨模型图像估计涉及从另一个模态的一个医学成像模型的图像产生。已经证明卷积神经网络CNNS可用于识别，表征和提取图像模式。生成的对抗网络GAN使用CNNS作为发电机，并且基于附加网络被区分为真或假的估计图像。图像估计框架内的CNN和GAN可以被认为是深度学习方法，因为成像数据趋于大，导致更多的网络权重。 CNN GaN图像估计文献的几乎所有研究都涉及使用MRI数据与主要是PET或CT的其他模态。本综述概述了用于基于MRI的跨模型医学图像估计的CNN和GAN的使用。我们概述了所实现的神经网络，并将用于CNN和GaN图像用于图像估计的网络构造。还提供了交叉模态图像估计背后的动机。与CNNS相比，GANS似乎在跨模型图像估计中提供了更好的效用，这是基于我们分析涉及估计和实际图像的度量的分析的发现。我们的最终评论突出了跨模型医学图像估计领域面临的关键挑战，概述了未来研究的建议。

Laplacian-Based Dimensionality Reduction Including Spectral Clustering, Laplacian Eigenmap, Locality Preserving Projection, Graph Embedding, and Diffusion Map: Tutorial and Survey
Authors Benyamin Ghojogh, Ali Ghodsi, Fakhri Karray, Mark Crowley
这是用于非线性维度和特征提取方法的教程和调查纸，其基于数据图的拉普拉斯。我们首先引入邻接矩阵，拉普拉斯矩阵的定义，以及拉普拉斯的解释。然后，我们涵盖了在数据子空间中应用群集的图形和光谱群集的剪辑。解释了Laplacian eigenmap的不同优化变体及其超出样本延伸。此后，我们介绍了作为Laplacian Eigenmap的线性特殊情况的位置保存投影及其内核变体。然后解释了图形嵌入的版本，这是Laplacian Eigenmap和位置保存投影的广义版本。最后，介绍了扩散图，这是基于数据图和随机散步的基于拉普拉斯的方法。

A Prospective Observational Study to Investigate Performance of a Chest X-ray Artificial Intelligence Diagnostic Support Tool Across 12 U.S. Hospitals
Authors Ju Sun, Le Peng, Taihui Li, Dyah Adila, Zach Zaiman, Genevieve B. Melton, Nicholas Ingraham, Eric Murray, Daniel Boley, Sean Switzer, John L. Burns, Kun Huang, Tadashi Allen, Scott D. Steenburg, Judy Wawira Gichoya, Erich Kummerfeld, Christopher Tignanelli
重要性是基于人工智能的模型来预测Covid 19胸X射线CXR发现可以作为加速立即临床决策的重要辅助，提高临床决策。尽管有重大努力，但在先前开发的Covid诊断模型中存在许多限制和偏差。利用一大集的本地和国际CXR图像，我们开发了一个高性能的AI模型，在时间和外部验证方面具有高性能。

Embedded Deep Regularized Block HSIC Thermomics for Early Diagnosis of Breast Cancer
Authors Bardia Yousefi, Hossein Memarzadeh Sharifipour, Xavier P.V. Maldague
热成像已被广泛用于乳腺癌检测中的互补诊断工具。在接受方法中，矩阵分解MF技术显示出明确的能力，以检测癌症病例中对应于血管舒张的热模式。这种技术中最大的挑战之一是选择热量的最佳表示。在本研究中，提出了一种嵌入方法来解决这个问题，引入深度半非负基质分子深度SeminFF用于热成像，然后测试208例乳腺癌筛查病例。首先，我们将Deep SeminMF应用于红外图像以提取每种情况的低级热表示。然后，我们嵌入低等级基础以获得每个患者的一个基础。之后，我们提取300个热成像功能，称为Thermomics，以解码自动诊断模型的成像信息。我们通过使用RBF内核将它们跨越Hilbert空间来减少Thermomics的维度，并使用块Hilbert Schmidt独立性标准套索块HSIC套索选择三个最有效的功能。保存的热异质性成功分类为应用随机森林模型的症状患者，验证准确度为71.36 69.42 73.3。

Robust Learning via Persistency of Excitation
Authors Kaustubh Sridhar, Oleg Sokolsky, Insup Lee, James Weimer
改善神经网络的对抗性鲁棒性仍然是一个重大挑战。从根本上，培训网络是一个参数估计问题。在自适应控制理论中，保持激励PoE的持久性是确保动态系统中参数估计的收敛到其鲁棒Optima的一体化。在这项工作中，我们表明使用梯度下降的网络训练等同于动态系统参数估计问题。利用这种关系，当学习率小于损耗函数的梯度的唇尖常数的逆逆时，我们证明了梯度下降的PoE的足够条件。我们提供了一种有效的技术，用于使用极值理论估计相应的Lipschitz常数，并通过仅扩大学习率时表，我们可以在基准数据集中增加越野准确度最多15。我们的方法在Autagratack基准上的各种状态下，我们的方法也将普遍的准确性升级为0.1到0.3，在自动攻击基准上的各种情况下，每个小额改进边际都是显着的。

Chinese Abs From Machine Translation

Papers from arxiv.org

更多精彩请移步主页

pic from pexels.com