【AI视野·今日CV 计算机视觉论文速览第195期】Tue, 11 May 2021

最新推荐文章于 2023-11-04 20:07:07 发布

hitrjj

最新推荐文章于 2023-11-04 20:07:07 发布

阅读量1.5k

点赞数

分类专栏：计算机视觉 Papers Transformer 文章标签： transformer 计算机视觉自监督注意力机制目标追踪

本文链接：https://blog.csdn.net/u014636245/article/details/116647688

版权

Papers 同时被 3 个专栏收录

457 篇文章 112 订阅

订阅专栏

计算机视觉

378 篇文章 74 订阅

订阅专栏

Transformer

36 篇文章 9 订阅

订阅专栏

AI视野·今日CS.CV 计算机视觉论文速览
Tue, 11 May 2021 (showing first 100 of 102 entries)
Totally 100 papers
👉上期速览✈更多精彩请移步主页

在这里插入图片描述

Interesting:

📚MoBY,, 基于swin-transformer为backbone的自监督学习方法(from 清华)
在这里插入图片描述
code: https://github.com/SwinTransformer/Transformer-SSL

📚Conformer, 结合卷积与transformer的局域特征与全局表示(from 中国科学院大学)

在这里插入图片描述
code：https://github.com/pengzhiliang/Conformer

📚TrTr, 基于transformer的模特特征抽取追踪方法。(from 东京大学)
在这里插入图片描述
code:https://github.com/tongtybj/TrTr

📚, (from )

Daily Computer Vision Papers

Self-Supervised Learning with Swin Transformers
Authors Zhenda Xie, Yutong Lin, Zhuliang Yao, Zheng Zhang, Qi Dai, Yue Cao, Han Hu
我们目睹计算机愿景中的CNN到变压器的建模转移。在本文中，我们提出了一种称为Moby的自我监督的学习方法，视觉变压器作为其骨干架构。该方法基本上是Moco V2和Byol的组合，调谐以在Imagenet 1K线性评估上实现合理的高精度，分别使用Deit S和Swin T分别在300时的训练中使用Deit S和Swin T获得高精度。这种性能略好于Moco V3和Dino的最新作品，该v3和DINO作为骨干，但具有更轻的技巧。

Stochastic Image-to-Video Synthesis using cINNs
Authors Michael Dorkenwald, Timo Milbich, Andreas Blattmann, Robin Rombach, Konstantinos G. Derpanis, Bj rn Ommer
视频了解呼叫模型来学习静态场景内容与其动态之间的特征相互作用给定图像，模型必须能够预测描绘场景的未来进展，并相反，应该以静态来解释视频图像内容和初始帧中不存在的所有剩余特性。这自然地表明了视频域和静态内容之间的基础映射以及静态信息。与常见的随机图像相反，这种模型不仅产生了初始图像的任意视频。鉴于此图像，它相当于在取样时，在残差向量和视频之间具有随机结果的一个映射。该方法自然地使用条件可逆的神经网络Cinn来实现，可以通过独立建模静态和其他视频特征来解释视频，从而为受控视频合成奠定基础。四种不同视频数据集的实验证明了我们对合成结果的质量和多样性的方法的有效性。我们的项目页面可供选择

An end-to-end Optical Character Recognition approach for ultra-low-resolution printed text images
Authors Julian D. Gilbey, Carola Bibiane Sch nlieb
一些历史和更新的印刷文件已被扫描或存储在非常低的分辨率，例如60 dpi。虽然这种扫描对于人类来说相对容易，但它们仍然对光学字符识别OCR系统仍然提出了重大挑战。本领域的当前状态是使用超分辨率来重建原始高分辨率图像的近似并将其馈送到标准OCR系统中。我们的小说结束方法绕过超分辨率步骤并产生更好的OCR结果。这种方法是从我们对人类视觉系统的理解的启发，并在既定的神经网络上建立了执行OCR。

MDA-Net: Multi-Dimensional Attention-Based Neural Network for 3D Image Segmentation
Authors Rutu Gandhi, Yi Hong
分割整个3D图像通常具有高的计算复杂性并且需要大的内存消耗，并且通过切片方式执行切片中的体积分割是有效的，但不完全利用3D数据。为了解决这一挑战，我们提出了一种多维关注网络MDA网，以有效地将切片明智，空间和渠道明智的关注集成到基于U网络的网络中，这导致具有低计算成本的高分割精度。我们在Miccai ISEG和IBSR数据集上评估我们的模型，实验结果表明了对现有方法的一致性改进。

Spoken Moments: Learning Joint Audio-Visual Representations from Video Descriptions
Authors Mathew Monfort, SouYoung Jin, Alexander Liu, David Harwath, Rogerio Feris, James Glass, Aude Oliva
当人们观察事件时，他们能够抽象的关键信息并建立发生的内容的简明摘要。这些摘要包括描述重要的高级细节的上下文和语义信息，其中观察到的事件和如何将被视为观察者视为不重要的背景信息。考虑到这一点，人们为不同动态事件的视频产生的描述可以大大提高我们对每个视频的关键信息的理解。可以在标题中捕获这些描述，该标题为视频标签提供扩展属性。行动对象场景情绪等，同时允许我们获得新的洞察人们对概述具体事件的重要或必要的东西。用于视频理解的现有标题数据集规模小或限制为特定域。为了解决这个问题，我们呈现了500k口语标题的口头瞬间的SMIT数据集，其归因于描绘广泛的不同事件的独特短视频。我们使用音频录制收集我们的描述，以确保它们尽可能自然，并使我们允许我们扩展大分类数据集的大小。为了利用我们所提出的数据集，我们提出了一种新的自适应均值管理AMM方法来对比学习，并在多个数据集上评估我们的视频字幕检索的模型。我们表明，我们的AMM方法一直始终提高我们的结果，并且在我们口头时刻培训的模型比其他视频标题数据集的培训更好地培训。

ICON: Learning Regular Maps Through Inverse Consistency
Authors Hastings Greer, Roland Kwitt, Francois Xavier Vialard, Marc Niethammer
数据样本之间的学习映射是基本的。应用范围从表示学习，图像转换和生成建模，估计空间变形。此类映射在特征向量中涉及特征向量，或在特征空间之间映射。表现良好的地图应该是常规的，可以明确地强加或可以从数据本身发出。我们探讨了空间变换的规律性，例如，当计算图像注册时。基于古典优化的模型计算样本对之间的映射，并依赖于适当的常规器以获得良好的呈现。最近的深入学习方法试图避免通过依靠样本群体来完全使用此类计划。我们探索如果可以使用反向一致性丢失获得空间规律性，并阐明在这样的上下文中解释地图规则的原因。我们发现深度网络与反向一致性损失和随机关闭网格插值相结合，产量良好表现，大致漫射，空间转换。尽管这种方法的简单性，但我们的实验在综合和实际数据上存在令人信服的证据，可以在没有精心调整的显式校长和竞争性登记绩效的情况下获得常规地图。

SCTN: Sparse Convolution-Transformer Network for Scene Flow Estimation
Authors Bing Li, Cheng Zheng, Silvio Giancola, Bernard Ghanem
我们提出了一种新颖的场景流估计方法来捕获和推断点云的3D运动。估计点云的3D动作是具有挑战性的，因为点云是无序的，并且其密度明显不均匀。这种非结构化数据在匹配点云之间的对应点时造成困难，导致流动估计不准确。我们提出了一种名为稀疏卷积变压器网络SCTN的新型建筑，其配备了变压器的稀疏卷积。具体地，通过利用稀疏卷积，SCTN将不规则点云传送到局部一致的流动特征中，以估计物体局部对象部分内的连续和一致的动作。我们进一步建议使用与退出方法不同的点变压器模块明确学习点关系。我们表明基于学习的关系的上下文信息丰富并有助于匹配对应的点，使场景流量估算受益。另外，提出了一种新的损失功能，以根据特征相似度自适应地鼓励流动一致性。广泛的实验表明，我们所提出的方法在现场流动估算中实现了新的现有技术。我们的方法分别在飞行器3D和基蒂场景流动上实现了0.038和0.037 EPE3D的误差，这通过大幅边缘显着优于先前的方法。

Boosting Semi-Supervised Face Recognition with Noise Robustness
Authors Yuchi Liu, Hailin Shi, Hang Du, Rui Zhu, Jun Wang, Liang Zheng, Tao Mei
虽然深刻识别从大规模训练数据中显着受益，但目前的瓶颈是标签成本。对此问题的可行解决方案是半监督学习，利用一小部分标记数据和大量未标记数据。然而，主要挑战是通过自动标签累积的标签错误，损害培训。本文提出了一个有效的解决方案，对自动标签引起的标签噪声具有强大的系统。具体来说，我们介绍了一个名为GroupNet GN的多代理方法，以赋予我们的解决方案能够识别错误标记的样本并保留清洁样本。我们表明，即使当嘈杂的标签超过50次训练数据时，GN单独达到传统监督的人脸识别的领先精度。此外，我们开发了一个半监督的面部识别解决方案，命名为噪声强大的学习标签Nroll，这是基于GN授权的强大培训能力。它从少量标记数据开始，因此对大量未标记数据进行高度置信标签，以提高进一步的培训。 NROLL标记的数据越多，令人信心越高就是数据集中的标签。为了评估我们方法的竞争力，我们使用粗略条件运行nroll，即只有五分之一的标签MSCeleb，其余的用作未标记的数据。在各种基准测试中，我们的方法对现有技术的方法有利地进行了比较。

An Enhanced Randomly Initialized Convolutional Neural Network for Columnar Cactus Recognition in Unmanned Aerial Vehicle Imagery
Authors Safa Ben Atitallah, Maha Driss, Wadii Boulila, Anis Koubaa, Nesrine Atitallah, Henda Ben Gh zala
最近，卷积神经网络CNNS对遥感图像分类进行了很大的性能。使用CNNS的植物识别是由于其在不同相关领域的附加值，特别是环境保护和自然区域保存，因此植物识别是一个主动深度学习研究主题之一。自动识别受保护区域的植物有助于这些区域的监视过程，并确保其生态系统的可持续性。在这项工作中，我们提出了一种增强的随机初始化的卷积神经网络Eri CNN，用于识别柱状仙人掌，这是墨西哥东南部的Tehuac N Cuicatl N山谷中存在的地方植物。我们使用由一组研究人员创建的公共数据集，该研究人员由20000多个遥感图像组成。实验结果证实了所提出的模型的有效性与在Inceptionv3和改进的LENET 5 CNN中的文献中报告的其他模型相比。我们的ERI CNN提供了98个精度，精度为97，召回的97个，97.5作为F1分数，0.056次。

AFINet: Attentive Feature Integration Networks for Image Classification
Authors Xinglin Pan, Jing Xu, Yu Pan, liangjian Wen, WenXiang Lin, Kun Bai, Zenglin Xu
卷积神经网络CNNS在包括图像分类的许多学习任务中取得了巨大成功。最近的CNN中的高级模型，如Resnet，主要关注跳过连接，以避免渐变消失。 DenSenet Designs建议在网络设计中创建额外的绕过以作为替代策略传输功能。在本文中，我们设计了专注的功能集成AFI模块，这些功能广泛适用于最近的网络架构，导致名为AFI网的新架构。 AFI网上的净值模拟了不同级别的特征和有选择性传输功能的相关性，具有小架空.Afi Reset 152获得了对象网数据集的1.24相对改进，而与Reset相比将闪光幅减少约9.2乘以约9.2 152。

Generative Adversarial Registration for Improved Conditional Deformable Templates
Authors Neel Dey, Mengwei Ren, Adrian V. Dalca, Guido Gerig
可变形模板对大规模医学图像配准，分割和人口分析至关重要。目前的常规和深度网络的模板施工方法仅使用正规化的注册目标，并且通常产生模板和或解剖学难以置有的外观，混淆下游生物医学解释。我们将可变形的登记和条件模板估计重构为对抗性游戏，其中我们鼓励移动的模板中的现实主义，其具有在柔性图像协变者上调节的生成的对抗性登记框架。由此产生的模板对年龄和疾病等归属的特异性表现出显着的增益，更好地适应潜在的群体的时空趋势，并实现了改善的清晰度和中心性。这些改进使得能够为标准化下游分析的不同协变量提供更准确的人口建模，并更容易解剖划分的兴趣结构。

An Autonomous Drone for Search and Rescue in Forests using Airborne Optical Sectioning
Authors D.C. Schedl, I. Kurmi, O. Bimber
无人机将在未来的搜索和救援SAR任务中在人机团队中发挥重要作用。我们提出了一个在密集的森林中发现人们完全自主的原型。在17种现场实验中，在各种森林类型和不同的飞行条件下进行，我们的无人机发现了38种隐藏人员的平均精度为86，适用于预定飞行路径，而自适应路径规划在潜在的发现是双重检查的增加。图像处理，分类和动态飞行路径适配是实时和飞行时的上载计算的。我们发现基于深度学习的人分类不受稀疏，并且在一维合成孔内的速度易受采样的易受采样允许缩短的飞行，并使用二维合成孔采样所需的图像数量的一十分之一。我们的自适应路径规划的目标是尽可能可靠且快速地找到人们，这在时间关键应用中至关重要，例如SAR。我们的无人机在没有稳定的网络覆盖范围内的偏远地区开展SAR操作，因为它仅向救援团队传输分类结果，该分类结果指示检测并因此可以与间歇最小带宽连接例如通过卫星进行操作。一旦收到，可以在远程移动设备上进行解释，可以在视觉上增强这些结果。

RelationTrack: Relation-aware Multiple Object Tracking with Decoupled Representation
Authors En Yu, Zhuoling Li, Shoudong Han, Hongwei Wang
现有在线多对象跟踪MOT算法通常包含两个子任务，检测和重新识别REID。为了提高推理速度并降低复杂性，当前方法通常将这些双子组织集成到统一的框架中。尽管如此，检测和REID需要多样化的功能。此问题将导致培训程序期间的优化矛盾。随着减轻这种矛盾的目标，我们设计了一个名为全球上下文解散GCD的模块，该模块将学习的表示与检测到的检测特定和REID特定嵌入式进行了解耦。因此，该模块提供了隐含的方式来平衡这两个子任务的不同要求。此外，我们观察到前面的MOT方法通常利用本地信息来关联检测到的目标并忽略以考虑全局语义关系。要解决此限制，我们通过组合变压器编码器的强大推理能力和可变形的关注，开发一个模块，称为引导变压器编码器GTE。与以前的作品不同，GTE避免分析所有像素，只参加查询节点与一些自适应选择的密钥样本之间的关系。因此，它是计算上有效的。在MOT16，MOT17和MOT20基准上进行了广泛的实验，以证明所提出的MOT框架的优越性，即关系贸易。实验结果表明，关系贸易已经显着超过了前面的方法，并建立了最新的现实性能，例如，在MOT20上的70.5和67.2的MOTA的IDF1。

DocReader: Bounding-Box Free Training of a Document Information Extraction Model
Authors Shachar Klaiman, Marius Lehne
从文档提取的信息是许多业务应用程序中的普遍存在的第一步。在此步骤中，必须首先从进一步处理并插入相应的数据库之前从扫描文档的图像读取各种字段的条目。虽然在过去几年中已经开发了许多不同的方法，以便自动化上述提取步骤，但它们都分享了训练文件的边界框或文本分部注释的要求。在这项工作中，我们提出了Docreader，一个端到端基于神经网络的信息提取解决方案，其可以仅使用图像和需要读取的目标值训练。因此，Docreader可以利用现有的历史提取数据，完全消除了对现有人类经营服务中心自然可用的任何额外注释的需求。我们展示了Docreader可以达到和超越需要训练的其他方法，并提供在生产中部署期间继续学习的明确路径。

Video Anomaly Detection By The Duality Of Normality-Granted Optical Flow
Authors Hongyong Wang, Xinjian Zhang, Su Yang, Weishan Zhang
由于异常异常事件，视频异常检测是一个具有挑战性的任务。对于此任务，基于重建和预测的方法在最近的作品中使用了近来的作品，这是在假设普通数据上学习的假设之上，不能将异常重建或被预测为正常模式，即异常导致更多的错误。在本文中，我们建议通过正常授权光流的二元性来歧视正常性的异常，这有利于预测正常帧，但不适用于异常框架。从单个帧预测正常授权光流，以保持专注于正常模式的运动知识。同时，我们将外观运动对应方案从帧重建扩展到预测，这不仅有助于了解对象外观和相关运动的知识，而且还满足运动是出现之间的变换的事实。我们还介绍了保证金亏损，以增强帧预测的学习。标准基准数据集的实验证明了我们方法的令人印象深刻的性能。

Primitive Representation Learning for Scene Text Recognition
Authors Ruijie Yan, Liangrui Peng, Shanyu Xiao, Gang Yao
场景文本识别是一种具有挑战性的任务，因为自然场景图像中的文本实例不同。基于CNN RNN CTC或编码器解码器的传统方法可能无法完全研究用于多面向场景文本的稳定和有效的特征表示。在本文中，我们提出了一种原始表示学习方法，旨在利用场景文本图像的内在表示。我们在特征映射中的元素作为无向图的节点。提出了一种池化聚合器和加权聚合器来学习原始表示，其通过图表卷积网络转换为高级视觉文本表示。构建原始表示学习网络PREN以使用视觉文本表示进行并行解码。此外，通过将视觉文本表示与2D关注机制集成到编码器解码器模型中，我们提出了一个名为PREN2D的框架，以缓解基于注意的方法的未对准问题。英语和中国场景识别任务的实验结果表明，PREN在准确性和效率之间保持平衡，而PREN2D则实现了最新性能的状态。

Visual Grounding with Transformers
Authors Ye Du, Zehua Fu, Qingjie Liu, Yunhong Wang
在本文中，我们提出了一种基于变压器的视觉接地方法。与以前的提案和等级框架依赖普瑞斯对象探测器或提案免费框架，通过融合文本嵌入器升级架子一级探测器的免费框架，我们的方法是基于变压器编码器解码器的顶部构建的，并且与任何预磨料的探测器无关单词嵌入模型。通过变压器称为VGTR视觉接地，我们的方法旨在根据文本描述的指导学习语义辨别性视觉功能，而不会损害其位置能力。此信息流使我们的VGTR能够在捕获视觉和语言模式的上下文级语义方面具有很强的能力，使我们介绍说明暗示的准确视觉线索来定位感兴趣的对象实例。实验表明，我们的方法优于艺术建议的状态，在五个基准中通过相当丰富的方法在维持快速推理速度的同时在五个基准中免费接近。

Overcoming the Distance Estimation Bottleneck in Camera Trap Distance Sampling
Authors Timm Haucke, Hjalmar S. K hl, Jacqueline Hoyer, Volker Steinhage
生物多样性危机仍在加速。估计动物丰富是评估例如土地利用变化的后果和物种组成上的侵入物种的重要性，或保护干预的有效性。相机陷阱距离采样CTD是最近开发的监测方法，可提供可靠的野生动物人口密度和丰度。然而，在CTD的当前应用中，通过费力，手动和主观估计方法导出到动物距离测量的所需相机。为了克服CTD中的距离估计瓶颈，本研究提出了利用图像处理和模式识别的现有方法的完全自动化的工作流程。

Event-LSTM: An Unsupervised and Asynchronous Learning-based Representation for Event-based Data
Authors Lakshmi Annamalai, Vignesh Ramanathan, Chetan Singh Thakur
事件摄像机是活动驱动的生物启发视觉传感器，从而导致稀疏性，高度的时间分辨率，低延迟和功耗等优点。鉴于事件摄像机的不同感测模式和高质量的传统视觉范例，通过将稀疏和异步事件转换为2D网格并随后应用标准视觉管道来主要解决事件处理。尽管在2D电网生成中受到监督学习方法显示的有希望的结果，但这些方法在监督态度中对待任务。标记的任务特定的地面真相事件数据充满挑战。为了克服这种限制，我们提出了一个无监督的自动编码器架构，由LSTM层组成的无监督的自动编码器架构，作为从事件序列学习2D网格表示的有前途的替代方案。与竞争监督方法相比，我们的任务是可靠的方法，理想的方法适用于事件域，任务特定标记的数据是稀缺的。我们还规定了提出的解决方案，以利用事件流的异步性质，这为其提供了理想的儿童学习，例如速度不变和节能2D电网生成。此外，我们还通过将记忆引入去噪过程来推动艺术事件的状态。关于活动识别和手势识别的评估表明，我们的方法能够改善最先进的方法，同时提供灵活性从未标记的数据学习。

Temporal-Spatial Feature Pyramid for Video Saliency Detection
Authors Qinyao Chang, Shiping Zhu, Lanyun Zhu
在本文中，我们提出了一种用于视频显着性检测的3D全卷积编码器解码器架构，其组合了视频显着建模的刻度，空间和时间信息。编码器从输入的连续视频帧中提取多尺度时间空间特征，然后通过时间空间卷积和顶部下调特征集成构造时间空间特征金字塔。解码器执行来自不同尺度的时间空间特征的分层解码，最后产生来自多个视频帧的集成的显着图。我们的模型简单而有效，可以实时运行。我们进行丰富的实验，结果表明，设计良好的结构可以显着提高视频显着性检测的精度。在三个纯粹的视觉显着基准和六个音频视频显着基准测试中的实验结果表明，我们的方法实现了转向的状态。

Action Shuffling for Weakly Supervised Temporal Localization
Authors Xiao Yu Zhang, Haichao Shi, Changsheng Li, Xinchu Shi
弱监督的行动本地化是具有广泛应用程序的具有挑战性的任务，旨在识别可用视频级注释的行为和相应的时间间隔。本文分析了行动的顺序敏感和位置不敏感特性，体现了他们进入自增强学习框架，以提高弱监督的行动本地化绩效。具体而言，我们提出了一种新颖的两个分支网络架构，其中包含InterAction Shuffling，称为Actshufnet。帧内动作Shuffling Branch列出了一个自我监督的订单预测任务，以增加与内部视频相关的视频表示，而Inter Action Shuffling分支对现有行动内容的重新组织策略施加以增强训练集，而不借助任何外部资源。此外，提出了全球局部对抗性培训，以提高模型对无关噪声的鲁棒性。广泛的实验是在三个基准数据集中进行的，结果清楚地证明了所提出的方法的功效。

You Only Learn One Representation: Unified Network for Multiple Tasks
Authors Chien Yao Wang, I Hau Yeh, Hong Yuan Mark Liao
人们通过愿景，听力，触觉以及过去的经验来了解世界。通过正常学习可以学习人类的经验我们称之为明确的知识，或者下意识地呼吁它隐含的知识。通过正常学习或下意识地学习的这些经验将被编码并存储在大脑中。使用这些丰富的经验作为一个庞大的数据库，人类可以有效地处理数据，即使他们事先看不见。在本文中，我们提出了一个统一的网络来编码隐式知识和显式知识，就像人类大脑都可以从正常学习以及潜意识学习学习知识。统一网络可以生成统一的表示，同时提供各种任务。我们可以在卷积神经网络中执行内核空间对齐，预测细化和多项任务学习。结果表明，当将隐性知识引入神经网络时，它会有利于所有任务的性能。我们进一步分析了从拟议的统一网络中了解到的隐式表示，并显示出捕捉不同任务的物理意义的巨大能力。这项工作的源代码是在

KDExplainer: A Task-oriented Attention Model for Explaining Knowledge Distillation
Authors Mengqi Xue, Jie Song, Xinchao Wang, Ying Chen, Xingen Wang, Mingli Song
知识蒸馏KD最近被出现为学习紧凑深度神经网络DNN的有效方案。尽管取得了有希望的成果，但解释KD行为的理由仍然在很大程度上被认为。在本文中，我们介绍了一种新的任务面向关注模型，称为KDexplainer，以揭示底部的香草KD底层的工作机制。在KDexplainer的核心是专家HME的分层混合，其中多级分类是重新重新重新重新重新重建的多项任务二进制文件。通过从训练的DNN预先训练的DNN到KDExplainer的蒸馏知识，我们观察到KD隐含地调制不同子任务之间的知识冲突，并且实际上提供了比标签平滑更多的更多信息。基于此类发现，我们进一步引入了一种便携式工具，称为虚拟关注模块VAM，可以与各种DNN无缝集成，以增强其在KD下的性能。实验结果表明，具有可忽略不计的成本，具有VAM的学生模型始终如一地优于不同基准的非VAM对应物。此外，当与其他KD方法相结合时，VAM仍然能够促进效果，即使它仅由香草KD激励。

PillarSegNet: Pillar-based Semantic Grid Map Estimation using Sparse LiDAR Data
Authors Juncong Fei, Kunyu Peng, Philipp Heidenreich, Frank Bieder, Christoph Stiller
对周围环境的语义理解对于自动车辆至关重要。最近的Semantickitti DataSet的出版刺激了城市情景中LIDAR点云的语义细分的研究。虽然大多数现有方法预测稀疏输入激光扫描的稀疏点语义类，但我们提出了PillarseGnet能够输出密集的语义网格图。与先前提出的网格图方法相比，PillarseGnet使用PointNet直接从3D点云学习功能，然后在顶视图中进行2D语义分段。要培训和评估我们的方法，我们使用稀疏和密集的地面真相，其中致密的地面真相是从多个叠加的扫描获得的。 Semantickitti DataSet上的实验结果表明，PillarseGnet通过艺术网格图方法的状态实现了大约10 miou的性能增益。

Unsupervised Human Pose Estimation through Transforming Shape Templates
Authors Luca Schmidtke, Athanasios Vlontzos, Simon Ellershaw, Anna Lukens, Tomoki Arichi, Bernhard Kainz
人类姿态估计是一个主要的计算机视觉问题，应用程序的应用范围从增强现实和视频捕获到监视和运动跟踪。在医学背景中，后者可能是婴儿神经损伤的重要生物标志物。虽然存在许多方法，但它们的应用受到良好注释的大型数据集的限制，并且无法概括为不同形状和身体组成的人类，例如。儿童和婴儿。在本文中，我们以无监督的方式提出了一种学习人类成年人和婴儿的姿势估计的新方法。我们将此作为深度特征提取器促进的学习模板匹配问题。通过将由预定义的身体部位组成的模板来估计人类可解释的地标，该模板由特征在于2D高斯分布。强制执行先前指导我们的模型，以实现有意义的人形表示。我们展示了我们对包括成年人和婴儿的两种不同数据集的方法的有效性。

Matching Visual Features to Hierarchical Semantic Topics for Image Paragraph Captioning
Authors Dandan Guo, Ruiying Lu, Bo Chen, Zequn Zeng, Mingyuan Zhou
观察一组图像及其相应的段落标题，具有挑战性的任务是学习如何生成语义相干段落来描述图像的视觉内容。这篇论文通过将语义主题集成到此任务中的最近成功的启发，开发了一个插头和播放分层主题引导图像段落生成框架，这对一个深度主题模型耦合了一个视觉提取器来指导语言模型的学习。要在多级抽象中捕获图像和文本之间的相关性并从图像中学习语义主题，我们设计一个变分推断网络，以将图像特征从图像特征构建到文本标题。要引导段落生成，所学习的分层主题和视觉功能集成到语言模型中，包括长短期内存LSTM和变压器，并联合优化。公共数据集上的实验表明，在标准评估指标方面，拟议模型与许多现有技术的方法竞争，可用于蒸馏解释的多层主题并产生多样化和相干的标题。

Coupling Intent and Action for Pedestrian Crossing Behavior Prediction
Authors Yu Yao, Ella Atkins, Matthew Johnson Roberson, Ram Vasudevan, Xiaoxiao Du
自主车辆的行人交叉行为的准确预测可以显着提高交通安全。现有方法经常使用轨迹或姿势模拟行人行为，但不提供对人的行为更深入的语义解释，或者行动如何影响未来的行人的意图。在这项工作中，我们遵循神经科学和心理文学，将行人交叉行为定义为一个不观察到的内在将是交叉与交叉的二进制意图的概率表示，例如，走路，站立等一组多级动作。。 Intent生成动作，并且未来的操作反映了意图。我们提出了一种新的多任务网络，该网络预测未来的行人行动，并在检测行人的目前的意图和动作之前使用预测的未来动作。我们还设计了关注关系网络，包括外部环境背景，从而进一步改善了意图和动作检测性能。我们评估了我们在两个自然主义驾驶数据集，饼图和JAAD上的方法，而且广泛的实验表明，对现有技术的最新检测和动作预测，显着改善和更明显的结果。我们的代码可供选择

An Attention-Fused Network for Semantic Segmentation of Very-High-Resolution Remote Sensing Imagery
Authors Xuan Yang, Shanshan Li, Zhengchao Chen, Jocelyn Chanussot, Xiuping Jia, Bing Zhang, Baipeng Li, Pan Chen
语义细分是深度学习的重要组成部分。近年来，随着遥感大数据的发展，语义细分越来越多地用于遥感。深度卷积神经网络DCNNS面临特征融合的挑战非常高分辨率遥感图像多源数据融合可以增加网络的学习信息，这有利于DCNNS同时正确分类目标对象，高级抽象特征和低电平的融合空间特征可以提高目标对象之间边框的分类精度。在本文中，我们提出了一种多径编码器结构来提取多径输入的特征，多径注意融合块模块到熔断器多径功能，以及改进融合块模块，以保险为高级别抽象特征和低级空间特征。此外，我们提出了一种新颖的卷积神经网络架构，称为关注融合网络AFNET。基于我们的AFNET，我们在ISPRS Vaihingen 2D数据集中实现了91.7的整体精度，平均F1分数为90.96的平均F1分数，而ISPRS Potsdam 2D DataSet的平均F1分数为92.1的总体精度和93.44的平均F1分数。。

Examining and Mitigating Kernel Saturation in Convolutional Neural Networks using Negative Images
Authors Nidhi Gowdra, Roopak Sinha, Stephen MacDonell
深神经网络DNN中的神经饱和度已经广泛研究，但在卷积神经网络CNNS中仍然相对未开发。理解和减轻卷积核饱和度的影响对于提高CNN模型分类准确性至关重要。在本文中，我们通过将负面图像补充到训练数据集来分析CNNS中的卷积核饱和度并提出简单的数据增强技术来缓解饱和度并提高分类精度的效果。我们假设可以使用负图像提取更大的语义特征信息，因为它们具有与标准图像相同的结构信息，而是在其数据表示中不同。各种数据表示降低了内核饱和度的概率，从而提高了内核权重更新的有效性。选择评估我们假设的两个数据集是CiFar 10和STL 10，因为它们具有相似的图像类，但是图像分辨率的不同，因此可以更好地理解饱和现象。 MNIST DataSet用于突出该技术的无效性用于线性可分离数据。选择了Reset CNN架构，因为网络中的跳过连接确保为分类准确度提供最大贡献的最重要功能。我们的结果表明，CNNS确实容易受到卷积核饱和度的影响，并且将负面图像补充到训练数据集可以在与在原始数据集上培训的模型进行比较时提供统计学上显着的分类准确性的增加。我们的结果分别在STL 10和CIFAR 10数据集上的准确性增加了6.98和3.16。

Multi-Agent Semi-Siamese Training for Long-tail and Shallow Face Learning
Authors Hailin Shi, Dan Zeng, Yichun Tai, Hang Du, Yibo Hu, Tao Mei
随着近期卷积神经网络和大规模数据集的发展，深层识别取得了显着的进展，并广泛用于各种应用中。然而，与现有的公共面部数据集不同，在许多真实的面部识别场景中，训练数据集的深度很浅，这意味着每个ID只有两个面部图像。随着样品的非均匀增加，这种问题被转换为更普遍的案例，A.K.A长尾部学习，它遭受数据不平衡和课堂多样性的缺乏同时。这些不利条件损害培训并导致模型性能的下降。基于半暹罗训练SST，我们介绍了一个先进的解决方案，命名为多代理半暹罗训练Masst，以解决这些问题。 MASST包括探测网络和多个图库代理，前者目的是对探测功能进行编码，后者构成了一堆编码原型库功能的网络。对于每个训练迭代，从堆栈顺序旋转的图库网络以及探针网络形成一对半暹罗网络。我们给出了理论和实证分析，鉴于长尾或浅数据和训练损失，Masst在多个代理和更新的库队列的帮助下平滑损失景观并满足Lipschitz连续性。所提出的方法超出了额外的依赖性，因此可以随着现有损耗函数和网络架构轻松集成。值得注意的是，尽管采用了多个画廊代理进行训练，但仅需要探测网络而不提高推理成本。广泛的实验和比较展示了Masst为长尾和浅脸学习的优势。

Deep feature selection-and-fusion for RGB-D semantic segmentation
Authors Yuejiao Su, Yuan Yuan, Zhiyu Jiang
场景深度信息可以帮助可视化信息以获取更准确的语义分割。然而，如何将多种模式信息与代表性的有效集成到代表性仍然是一个开放的问题。大多数现有工作都使用DCNN隐式熔断多模态信息。但随着网络加深的，一些关键的区别特征可能会丢失，这减少了分割性能。这项工作提出了一个统一和高效的功能选择，融合网络FSFNET，它包含一个对称跨模型剩余融合模块，用于显式融合多模态信息。此外，网络包括详细的特征传播模块，其用于在网络的前向过程中维持低电平详细信息。与现有技术的状态相比，实验评估表明，该模型在两个公共数据集中实现了竞争性能。

Elastic Weight Consolidation (EWC): Nuts and Bolts
Authors Abhishek Aich
在本报告中，我们介绍了持续学习方法TextBF弹性重量整合的理论支持，介绍了神经网络中克服灾难遗忘的纸张。作为持续学习的正规化方法中最引用的纸张之一，本报告解除了所提出的客观职能的潜在概念。我们假设读者知道持续学习的基本术语。

Self-supervised spectral matching network for hyperspectral target detection
Authors Can Yao, Yuan Yuan, Zhiyu Jiang
高光谱目标检测是像素级识别问题。给定一些目标样本，它旨在从整个高光谱图像识别飞机，车辆，船舶等特定目标像素。通常，背景像素占据大多数图像和复杂分布。结果，数据集是弱注释和极其不平衡的。为了解决这些问题，设计了一种基于光谱混合的自我监督范例，用于获得高光谱数据，以获得有效的特征表示。该模型采用基于频谱相似性的匹配网络框架。为了了解更多的辨别特征，采用基于对的损耗来最小化目标像素之间的距离，同时最大化目标和背景之间的距离。此外，通过背景分离步骤，将复杂的未标记光谱逐渐采样成不同的子类别。三个真实高光谱数据集的实验结果表明，与现有探测器相比，所提出的框架达到了更好的结果。

CFPNet-M: A Light-Weight Encoder-Decoder Based Network for Multimodal Biomedical Image Real-Time Segmentation
Authors Ange Lou, Shuyue Guan, Murray Loew
目前，深度学习技术的发展正在提供有助于识别，分类和量化医学图像中的模式。分割是医学图像分析中的重要应用之一。在这方面，U Net是医学图像分割任务的主要方法。但是，我们发现，基于网络的模型在若干方面有局限性，例如，U Net中的数百万个参数消耗了相当大的计算资源和内存，缺乏全局信息，并缺少一些艰难的对象。因此，我们应用了两个修改来改进U净模型1设计并添加了扩张的通道WISE CNN模块，2简化了U形网络。基于这两种修改，我们提出了一种新型轻量级架构通道Wise特征金字塔网络，用于医学CFPNet M。为了评估我们的方法，我们选择了五个具有不同模式热成像，电子显微镜，内窥镜检查，Dermoscopy和数字视网膜图像的数据集。我们将其性能与具有不同参数尺度不同的若干模型进行了比较。本文还涉及我们对DC UNET的先前研究以及一些常用的轻质神经网络。我们应用了Tanimoto相似性而不是Jaccard索引进行灰度级图像测量。相比之下，CFPNet M在所有五个医疗数据集上实现了相当的分段结果，只有0.65万个参数，其中大约是U Net的2和8.8 MB内存。同时，推理速度可以在单个RTX 2070TI GPU上达到80 FPS，256乘192像素输入大小。

Robust Training Using Natural Transformation
Authors Shuo Wang, Lingjuan Lyu, Surya Nepal, Carsten Rudolph, Marthie Grobler, Kristen Moore
通过数据转换或对抗性训练的数据增强技术等深度学习模型的先前鲁棒性方法不能捕获维护输入的语义的真实世界变化，例如照明条件的变化。为了弥合这一差距，我们展示了Natra，这是一种旨在提高图像分类算法的稳健性的侵犯培训方案。我们针对与类识别无关的输入图像的属性，并操纵这些属性以模拟的基础世界自然变换Natra，然后使用它来增加图像分类器的训练数据集。具体而言，我们应用纺织批量逆编码和转移以将一批给定图像映射到训练有素的生成模型的相应解剖潜码。 Textit潜码扩展用于通过延长特征映射加入图像重建质量。 Textit无监督的属性指向和操作使得能够识别对应于特定属性的变化，然后产生这些属性的可解释操作，从而为输入数据产生自然变换。我们通过利用从训练有素的GAN源于训练有素的GAN来模仿类似于真实世界的自然变化的变换，如照明条件或发型，以及培训模型，以及培训模型对这些自然变换的模型来模仿图像的效果。广泛的实验表明，我们的方法改善了分类模型的概括，并增加了对各种现实世界扭曲的鲁棒性

Reconstructive Sequence-Graph Network for Video Summarization
Authors Bin Zhao, Haopeng Li, Xiaoqiang Lu, Xuelong Li
利用内部射击和屏幕次依赖性对于基于关键拍摄的视频摘要至关重要。目前的方法主要用于通过经常性神经网络将视频建模为帧序列。然而，序列模型的一个潜在限制是它们专注于捕获本地邻域依赖性，而长距离的高阶依赖性未充分利用。通常，每个镜头中的帧记录某个活动并随着时间的推移顺利变化，但是镜头之间的多跳关系频繁发生。在这种情况下，本地和全局依赖关系都很重要，对于了解视频内容很重要。通过这一点，我们提出了一种重建的序列图网络RSGN来编写序列和图形地编码帧和拍摄，其中帧电平依赖性由长短短期存储器LSTM编码，并且由图形卷积捕获拍摄电平依赖性网络GCN。然后，通过利用镜头之间的本地和全局依赖性来概述视频。此外，开发了一种重建器以奖励汇总发生器，使得发电机可以以无监督的方式进行优化，这可以避免视频摘要中的缺乏注释数据。此外，在重建损失的指导下，预测的摘要可以更好地保留主视频内容和拍摄级别依赖性。实际上，在三个流行的数据集中的实验结果是，Summe，TVSum和VTW已经证明了我们提出的摘要任务的方法的优势。

Truly shift-equivariant convolutional neural networks with adaptive polyphase upsampling
Authors Anadi Chaman, Ivan Dokmani
由于存在下采样层，卷积神经网络缺乏转向标准。在图像分类中，最近建议自适应多相下采样APS D使CNN完全换档不变。但是，在用于图像重建任务的网络中，它不能自动恢复转移标准规范。通过提出自适应多相上采样APS U，传统上采样的非线性扩展，我们解决了这个问题，该传统上采样的非线性扩展，其允许CNNS表现出完美的转移标准。利用MRI和CT重建实验，我们表明，网络包含APS D U层的网络展示了本领域的现实性能，而不会牺牲图像重建质量。另外，与数据增强和反混叠等现有方法不同，从APS D获得的标准规范中的增益也扩展到训练分布外的图像。

End-to-End Optical Character Recognition for Bengali Handwritten Words
Authors Farisa Benta Safir, Abu Quwsar Ohi, M.F. Mridha, Muhammad Mostafa Monowar, Md. Abdul Hamid
光学字符识别OCR是使用文档图像将模拟文档转换为数字的过程。目前，不同语言的手写和印刷副本存在许多商业和非商业OCR系统。尽管如此，在识别孟加拉语时，很少有效。其中，大多数作品专注于印刷孟加拉人物的OCR。本文介绍了孟加拉语言结束了EODR系统。拟议的架构实现了结束到结束策略，识别手写的单词图像的手写孟加拉语。我们试验热门卷积神经网络CNN架构，包括DENSENET，Xception，NASNet和MobileNet来构建OCR架构。此外，我们试验两种不同的经常性神经网络RNN方法，LSTM和GRU。我们使用Banglawritt DataSet评估所提出的架构，该数据集是对等的孟加拉手写图像数据集。所提出的方法实现了使用Densenet121模型进行了0.091个字符的误差率和0.273字误差率，使用GRU复发层进行了型号。

Preserving Privacy in Human-Motion Affect Recognition
Authors Matthew Malek Podjaski, Fani Deligianni
人类运动是一种广泛使用的生物标志物，在临床分析中用于监测神经疾病和情绪障碍的进展。由于对情绪的看法也与身体姿势和运动进行交错，因此人体步态的情感识别可用于定量监测与神经系统疾病相关的情绪变化。许多现有解决方案经常使用具有原始位置数据的浅机器学习模型或手动提取功能以实现此功能。然而，步态由许多高度表现力的特征组成，可用于识别人类受试者，大多数解决方案都无法解决这一问题，无视主题的隐私。这项工作评估了使用3D时间关节信号和手动提取的特征来识别情绪的现有方法的有效性。我们还表明，可以轻松地利用此数据来公开主题的标识。因此，在此目的，我们提出了一种跨对象传输学习技术，用于训练多编码器AutoEncoder深神经网络，以学习人类运动特征的解除态潜在表示。通过从步态数据解开主题生物识别学，我们表明受试者隐私保留，而影响识别性能优于传统方法。

Fish Disease Detection Using Image Based Machine Learning Technique in Aquaculture
Authors Md Shoaib Ahmed, Tanjim Taharat Aurpa, Md. Abul Kalam Azad
水产养殖中的鱼类疾病构成了营养安全性的重大危害。由于必要基础设施的缺乏，在早期发现感染的鱼类鱼类的鉴定仍然具有挑战性。及时鉴定受感染的鱼是散发疾病的义务步骤。在这项工作中，我们希望在水产养殖中发现鲑鱼类疾病，因为鲑鱼水产养殖是全球增长最快的食品生产系统，占市场的70％。在完美的图像处理和机器学习机制的联盟中，我们识别由各种病原体引起的受感染的鱼类。这项工作分为两部分。在基本部分中，已经应用了图像预处理和分割以减少噪声并分别夸大图像。在第二部分中，我们提取所涉及的功能在使用内核功能的机器学习的支持向量机SVM算法的帮助下对疾病进行分类。第一部分的处理后的图像已经通过该SVM模型。然后，我们将综合实验协调，拟议的鲑鱼鱼图像数据集上的技术组合用于检查鱼类疾病。我们已经在具有和没有图像增强的新型数据集中传达了这项工作。结果已经购买了应用SVM的判断，特别是分别以91.42和94.12％的准确性，有和没有增强。

TextAdaIN: Fine-Grained AdaIN for Robust Text Recognition
Authors Oren Nuriel, Sharon Fogel, Ron Litman
利用卷积层的特性，图像分类器非常有效。然而，最近的作品暴露在许多情况下，他们在保留图像语义时容易操纵的全球图像统计，他们不受依赖于全球图像统计数据。在文本认可中，我们揭示了它是网络统计的本地形象统计，这是网络覆盖的。由此激励，我们建议一种方法来规范依赖于局部统计数据，提高整体文本识别性能。

Binarized Weight Error Networks With a Transition Regularization Term
Authors Savas Ozkan, Gozde Bozdagi Akar
本文提出了一种用于资源高效神经结构的新型二值化重量网络BT。所提出的模型通过考虑附加术语来估计权重的二进制表示。该模型提高了表示能力和稳定性，特别是对于浅网络，而计算负载理论上减少。此外，引入了一种适用于基于阈值的二进制精密网络的新型正则化术语。该术语惩罚远离二进制转换发生的阈值的可训练参数。该步骤促进了火车时间的二进制精度响应的SWIFT修改。实验结果是为两组任务视觉分类和视觉逆问题进行的。 CIFAR10，SVHN，时尚，Imagenet2012，Set5，Set14，城市和BSD100数据集的基准表明，我们的方法优于二进制精度的所有对应物。

Interaction Detection Between Vehicles and Vulnerable Road Users: A Deep Generative Approach with Attention
Authors Hao Cheng, Li Feng, Hailong Liu, Takatsugu Hirayama, Hiroshi Murase, Monika Sester
交叉路口允许车辆转向和与弱势道路用户互动，如行人和骑自行车者等一些最具挑战性和准确识别道路用户行为的地方。在本文中，我们提出了一种在这些位置处的相互作用检测的深层条件生成模型。它旨在自动分析关于道路用户行为的连续性的大规模视频数据。这项任务对于许多智能交通系统（如交通安全控制和自动驾驶汽车）至关重要，这取决于对道路用户运动的理解。基于Gaussian潜在变量的基于基于的基于型自动编码器的模型被培训，以编码道路用户行为并执行概率和不同的交互预测。该模型作为输入通过深度学习对象检测器自动提取的道路用户类型，位置和运动的信息，并从视频中产生光流，并产生表示转动车辆与所涉及的任何VRU之间的相互作用动态的框架明智概率。通过在从两个不同交叉口获取的真实世界数据集上测试验证模型的效果。它在德国的右转交叉口达到了0.96的F1得分，并在日本的左转交叉口0.89，两者都有非常繁忙的交通流量。

Conformer: Local Features Coupling Global Representations for Visual Recognition
Authors Zhiliang Peng, Wei Huang, Shanzhi Gu, Lingxi Xie, Yaowei Wang, Jianbin Jiao, Qixiang Ye
在卷积神经网络中CNN中，卷积操作擅长提取本地特征，但难以捕获全局表示的体验。在Visual Transformer中，级联的自我注意模块可以捕获长距离特征依赖性，但遗憾的是，局部特征细节恶化。在本文中，我们提出了一种混合网络结构，称为符合子，利用卷积操作和自我注意机制来增强代表学习。在特征耦合单元FCU中的构象根部，其以交互式方式融合不同分辨率的局部特征和全局表示。 Conformer采用并发结构，使本地特征和全局表示在最大程度上保留。实验表明，在相当的参数复杂度下，符合子在图像上以2.3的成像越差优于2.3。在MSCOCO上，它分别优于3.7和3.6映射的reset101，分别用于对象检测和实例分割的映射，展示了普通骨干网的巨大电位。代码可用

Selective Probabilistic Classifier Based on Hypothesis Testing
Authors Saeed Bakhshi Germi, Esa Rahtu, Heikki Huttunen
在本文中，我们提出了一种简单而有效的方法，可以解决违反封闭世界对分类器的假设。以前的作品倾向于在分类分数或丢失函数上应用阈值以拒绝违反假设的输入。但是，这些方法无法达到安全应用所需的低误阳性比FPR。该方法是基于具有概率网络的假设测试的拒绝选项。利用概率网络，可以估计结果的分布而不是单个输出。通过利用Z测试对每个类的平均值和标准偏差，所提出的方法可以估计网络确定性的统计显着性并拒绝不确定的输出。所提出的方法用不同的COCO和COFAR数据集进行了实验。将所提出的方法的性能与软MAX响应进行比较，这是已知的顶部执行方法。结果表明，该方法可以实现更广泛的操作范围，并且覆盖比替代方案更低的FPR。

Trajectory Prediction for Autonomous Driving with Topometric Map
Authors Jiaolong Xu, Liang Xiao, Dawei Zhao, Yiming Nie, Bin Dai
艺术状态自主驾驶系统依赖于高清高清地图进行本地化和导航。但是，建设和维护高清地图是耗时和昂贵的。此外，高清地图假设结构化环境，例如农村地区不存在的主要道路和车道。在这项工作中，我们建议结束基于地图的最终变压器网络的地图较少自动驾驶。该模型将原始LIDAR数据和嘈杂的高度映射映射为输入，并为导航产生精确的本地轨迹。我们展示了我们在现实世界驾驶数据中的方法的有效性，包括城市和农村地区。实验结果表明，所提出的方法优于现有技术的多数制方法的状态，并且对压幅地图的扰动是强大的。所提出的方法的代码在URL上公开提供

Seismic Fault Segmentation via 3D-CNN Training by a Few 2D Slices Labels
Authors YiMin Dou, Kewen Li, Jianbing Zhu, Xiao Li, Yingjie Xi
地震数据中的检测故障是地震结构解释，储层表征和井放置的关键步骤，充满挑战。一些最近的工作将故障检测视为图像分割任务。图像分割的任务需要大量的数据标签，尤其是3D地震数据，具有复杂的结构和大量噪声。因此，其注释需要专家体验和巨大的工作量，错误的标签和缺少标签会影响模型的分割性能。在这项研究中，我们提出了一种新的二进制交叉熵和平滑L1损耗Lambda BCE和Lambda平滑L1，通过从3D地震数据采样一些2D片来有效地培训3D CNN，以便该模型可以从A中学习3D地震数据的分割很少有2D片。为了完全从有限和低维数据中提取信息并抑制地震噪声，我们提出了一个可用于主动监督训练主动注意模块，AAM并嵌入在网络中的关注模块，以参与模型的差异化和优化。。在培训期间，注意热爱目标是由原始二进制标签产生的，并让它使用Lambda平滑L1损耗监控注意模块。定性实验表明，我们的方法可以在实际数据上从几个2D切片标签中提取3D地震特征，以分割完整的故障卷。通过可视化，分割效果实现了现有技术。合成数据的定量实验证明了我们的训练方法和注意模块的有效性。实验表明，使用我们的方法，标记一个2D切片每30帧至少3.3的原始标签，模型可以实现与3D标签类似的分段性能。

Dataset and Performance Comparison of Deep Learning Architectures for Plum Detection and Robotic Harvesting
Authors Jasper Brown, Salah Sukkarieh
农业中的许多自动化操作，例如除草和工厂计数，需要稳健和准确的对象探测器。机器人水果收获是其中之一，是一个重要的技术，以解决树木作物种植者越来越多的劳动力短缺和不确定性。手动感应设置的眼睛通常用于收集系统，并为感测精度和灵活性提供益处。然而，随着手和相机从观察整个网格来挑选特定的水果，照明，颜色，遮蔽和曝光的大变化发生。用于收获的对象检测算法应该对这些挑战强大，但是几个用于评估此目前存在的数据集。在这项工作中，在实际机器人梅花收获系统的一天和夜间运行期间收集了两个新数据集。一系列当前的深度学习对象探测器是针对这些的基准测试。另外，测试了两种融合深度和图像信息的方法，以对检测器性能的影响。发现不同探测器的白天和夜间精度之间的显着差异，在所有情况下识别转移学习，并且评估深度信息融合只会略微有效。数据集和基准模型在线提供。

Beyond Monocular Deraining: Parallel Stereo Deraining Network Via Semantic Prior
Authors Kaihao Zhang, Wenhan Luo, Yanjiang Yu, Wenqi Ren, Fang Zhao, Changsheng Li, Lin Ma, Wei Liu, Hongdong Li
雨是一种常见的自然现象。在雨中拍摄图像通常会导致图像质量退化，从而损害了许多计算机视觉系统的性能。大多数现有的De降雨算法仅使用一个输入图像并旨在恢复清洁图像。很少有效利用立体声图像。此外，即使对于基于单眼的单眼辐射，许多电流方法也无法令人满意地完成任务，因为它们主要依赖于每个像素丢失函数并忽略语义信息。在本文中，我们介绍了一个配对的雨删除网络PRRNET，它利用了立体图像和语义信息。具体而言，我们开发一个语义识别的派安模块SADM，其解决了场景的语义分割和派生的任务，以及语义融合网络SFNET和视图融合网络VFNET分别熔断语义信息和多视图信息。此外，我们还介绍了一个增强的配对雨拆卸网络EPRRNET，用于在立体图像中移除雨条纹之前进行语义。我们首先使用粗辐射网络来减少输入图像上的雨条纹，然后采用预训练的语义分割网络来提取来自粗污染图像的语义特征。最后，并行立体声派生网络融合语义和多视图信息，以恢复更精细的结果。我们还提出了基于基于立体声的雨天数据集进行了基准。单眼和新提出的立体声多雨数据集的实验表明，该方法达到了最先进的性能。

Good Practices and A Strong Baseline for Traffic Anomaly Detection
Authors Yuxiang Zhao, Wenhao Wu, Yue He, Yingying Li, Xiao Tan, Shifeng Chen
流量异常的检测是智能城市运输管理系统的关键组成部分。以前的作品提出了各种显着的见解，并在这一领域迈出了一步，然而，处理复杂的交通环境仍然是一个挑战。此外，缺乏高质量的数据和交通场景的复杂性，激励我们从手工制作的角度来研究这个问题。在本文中，我们提出了一种简单而有效的框架，包括预处理，动态轨道模块和后处理。通过视频稳定，背景建模和车辆检测，Pro处理阶段旨在产生候选异常。通过利用车辆运动模式和时空状态，动态跟踪模块寻求和找到异常的开始时间。最后，我们使用后处理来微调异常的时间边界。毫不奇怪，我们所提出的框架在Nvidia Ai City 2021领导板中排名第一，用于交通异常检测。代码可用

A Hybrid Model for Combining Neural Image Caption and k-Nearest Neighbor Approach for Image Captioning
Authors Kartik Arora, Ajul Raj, Arun Goel, Seba Susan
提出了一种混合模型，其集成了两个流行的图像标题方法来生成基于文本的摘要，描述了图像的内容。两个图像标题模型是神经图像标题NIC和K最近邻近的方法。这些都在培训集上单独培训。我们从验证集中提取一组五个功能，用于评估又用于训练逻辑回归分类器的两种模型的结果。比较两个模型的BLEU 4分数，以为逻辑回归分类器生成二进制值地面真相。对于测试集，首先通过两个模型分开通过输入图像以生成各个字幕。从这两个模型中提取的五维特征集被传递给逻辑回归分类器，以考虑关于所产生的最终标题的决定，这是由模型产生的两个标题中最好的。我们的K最近邻模型的实现实现了15.95的BLEU 4得分，并且NIC模型在基准FlickR8K数据集中实现了16.01的BLEU 4分数。所提出的混合模型能够实现18.20的BLEU 4得分证明了我们的方法的有效性。

TrTr: Visual Tracking with Transformer
Authors Moju Zhao, Kei Okada, Masayuki Inaba
基于模板的鉴别性跟踪器是目前由于其鲁棒性和准确性而主导的跟踪方法，以及依赖于从模板和搜索图像中提取的特征之间的互相关操作的基于暹罗网络的方法显示了艺术跟踪性能的状态。然而，一般交叉相关操作只能在两个特征映射中获得本地补丁之间的关系。在本文中，我们提出了一种基于强大的关注机制的新型跟踪网络，称为变压器编码器解码器架构，以获得全局和丰富的上下文相互依赖性。在这种新的架构中，模板图像的特征是由编码器部分中的自我注意模块处理的，以学习强的上下文信息，然后将其发送到解码器部分以计算通过由另一个自我注意模块处理的搜索图像特征来计算交叉关注。此外，我们使用变压器的输出来设计分类和回归头，以基于形状不可知锚定本地化目标。我们在VOT2018，VOT2019，OTB 100，UAV，NFS，TrackingNet和Lasot基准测试中广泛地评估我们的跟踪器Trtr，以及我们的方法对最有利的算法进行有利地执行。培训代码和预磨料型号可供选择

Analysis and Mitigations of Reverse Engineering Attacks on Local Feature Descriptors
Authors Deeksha Dangwal, Vincent T. Lee, Hyo Jin Kim, Tianwei Shen, Meghan Cowan, Rajvi Shah, Caroline Trippel, Brandon Reagen, Timothy Sherwood, Vasileios Balntas, Armin Alaghi, Eddy Ilg
作为自主驾驶和增强现实的发展，实际问题是数据隐私。特别是，这些应用程序依赖于基于用户映像的本地化。广泛采用的技术使用来自图像的本地特征描述符，并且很长时间认为它们无法恢复。然而，最近的工作表明，在某些条件下，逆向工程攻击是可能的，并允许对手重建RGB图像。这会对用户隐私构成潜在风险。我们使用隐私威胁模型进一步迈出一步，并模拟潜在的对手。随后，我们在受控条件下显示了对稀疏特征映射的反向工程攻击，并分析了流行描述符的漏洞，包括Freak，Sift和SOSNet。最后，我们评估选择描述符的潜在的缓解技术，以仔细平衡隐私重建风险，同时保持图像匹配精度，我们的结果表明在揭示较少信息时可以获得类似的准确度。

Estimation of 3D Human Pose Using Prior Knowledge
Authors Shu Chen, Lei Zhang, Beiji Zou
从二维关节的位置估计三维人姿势已经显示了有希望的结果。然而，使用二维关节坐标作为输入失去的信息，而不是基于图像的方法和结果

Slash or burn: Power line and vegetation classification for wildfire prevention
Authors Austin Park, Farzaneh Rajabi, Ross Weber
电力公用事业正在努力管理更热和干燥的气候中的野火风险。当与周围植被接触时，公用事业传输和分配线定期点燃破坏性火灾。修剪植被以维持与实用资产分离的分离对安全性至关重要。每个效用都有成千上万的线性英里来管理，对这些资产所在的地方的知识差，并且无法优先考虑修剪。特征增强型卷积神经网络CNNS在这个问题空间中已经证明是有效的。定向梯度猪和霍夫变换的直方图用于增加电源线和杆等线性结构的显着性。数据经常从无人机或卫星镜头中取出，但Google Street View提供更具可扩展性和更低的成本解决方案。本文采用了从街景刮擦的1,320张图像，在流行的CNN上传输学习，以及特征工程，以在三个类别1中的一个没有公用事业系统中放置图像，2个公用事业系统，没有过度植被的3个公用事业系统，或具有过度植被的3个公用事业系统。因此，CNN输出产生优先型植被管理系统，并作为副产品创建公用事业资产的地理标记地图。使用VGG11具有达到80.15的测试精度，使用训练有素的第一层和分类器，以及模型集合正确分类为88.88的风险植被过度生长。

AnomalyHop: An SSL-based Image Anomaly Localization Method
Authors Kaitai Zhang, Bin Wang, Wei Wang, Fahad Sohrab, Moncef Gabbouj, C. C. Jay Kuo
在这项工作中提出了一种基于连续子空间学习SSL框架的图像异常本地化方法，在这项工作中提出了一个名为Anomalyhop的。 Anomalyhop由三个模块1功能提取通过连续子空间学习SSL，2个正常功能通过高斯模型建模，以及3个异常地图生成和融合。与基于深神经网络DNNS的艺术图像异常定位方法相比，Anomalyhop在数学上透明，易于训练，并以推广速度快。此外，其在MVTEC AD DataSet上的ROC曲线ROC AUC性能下的区域是95.9，这是几种基准测试方法中的最佳状态。我们的代码在Github公开提供。

Distribution Matching for Heterogeneous Multi-Task Learning: a Large-scale Face Study
Authors Dimitrios Kollias, Viktoriia Sharmanska, Stefanos Zafeiriou
多项任务学习作为一种方法，其中通过共享学习算法共同学习多项任务，例如DNN。 MTL基于假设所考虑的任务是相关的，因此它利用共享知识来提高每个任务的性能。任务通常被认为是均匀的，即，指代相同类型的问题。此外，MTL通常基于具有完整或跨任务的完整或部分重叠的地面真理注释。在这项工作中，我们处理异质MTL，同时解决检测，分类回归问题。我们探索任务相关性作为CO培训的手段，以弱监督的方式，包含很少，甚至不重叠注释的任务。任务相关性在MTL中引入，无论是通过先前的专家知识，还是通过数据驱动研究。我们提出了一种新的分发匹配方法，其中通过其预测分布匹配在任务之间启用了知识交换。基于这种方法，我们通过联合学习所有面部行为任务，建立大规模面部分析的第一个框架的FaceBehaviornet。我们为i持续影响估算，动作单位检测，基本情感识别II属性检测，面部识别，制定案例研究。

e-ViL: A Dataset and Benchmark for Natural Language Explanations in Vision-Language Tasks
Authors Maxime Kayser, Oana Maria Camburu, Leonard Salewski, Cornelius Emde, Virginie Do, Zeynep Akata, Thomas Lukasiewicz
最近，越来越多的作品引入了能够为其预测生成自然语言解释的模型，以便他们对视觉语言VL任务的预测。这些模型是吸引人的，因为他们可以提供人类友好和全面的解释。但是，仍然缺乏这些模型产生的解释的统一评估方法。此外，目前只有几个用于VL任务的NLE数据集。在这项工作中，我们介绍了E VIL，这是一个可解释的愿景语言任务的基准，该任务建立了统一的评估框架，并提供了为VL任务生成NLES的现有方法的第一次全面比较。 e VIL跨越四个模型和三个数据集。自动度量和人工评估都用于评估模型生成的解释。我们还介绍了ENLI VE，最大的现有VL数据集，具有430K的内容。最后，我们提出了一个新的模型，这些模型结合了统一的，它学习了图像和文本的联合嵌入，以及GPT 2，这是一个非常适合文本生成的预培训的语言模型。它在所有数据集中的大边缘超过了本领域的先前状态。

PCA Event-Based Otical Flow for Visual Odometry
Authors Mahmoud Z. Khairallah, Fabien Bonardi, David Roussel, Samia Bouchafa
随着神经形态视觉传感器的出现，例如基于事件的相机，大多数计算机视觉算法需要范式转移。在这些算法中，考虑到它与神经胸视觉方法相关联的这种过程是该过程的主要候选者。由于其丰富性和准确性，光学流量的使用是普遍存在的机器人应用。我们介绍了基于事件的光流估计问题的主要成分分析PCA方法。在这种方法中，我们研究了有效增强光流的估计的不同正则化方法。我们表明，与视觉测距的实时背景专用于视觉测量术的实时背景，与现有技术相比，我们提出的方法的最佳变种是大约两倍，同时显着提高了光学流动精度。

Self-Supervised Adversarial Example Detection by Disentangled Representation
Authors Zhaoxi Zhang, Leo Yu Zhang, Xufei Zheng, Shengshan Hu, Jinyu Tian, Jiantao Zhou
已知深入学习模型容易受到对恶意目的精心设计的对抗的侵害，并且对人类感知系统不可察觉。自动宿主仅在良好的例子上培训时，基于对抗性示例产生较大的重建误差，已被广泛用于自我监督的对抗性检测。然而，由于缺乏对抗性实例的培训和自身期间的泛化能力太强，因此这种假设并不总是在实践中保持真实。为了缓解这个问题，我们探索通过自身中心结构下的图像的解散表示来检测对抗性示例。通过将输入图像解开为类特征和语义功能，我们培训一个由鉴别介子网络辅助的AutoEncoder，在正确配对的类语义特征和错误地配对的类语义特征上，以重建良性和监控符号。这种模仿对抗性示例的行为，可以降低自动化器的不必要的泛化能力。与现有的自我监督检测方法相比，我们的方法在各种测量中表现出更好的性能，即AUC，FPR，TPR在不同的数据集Mnist，时尚Mnist和CiFar 10，不同的对抗攻击方法FGSM，BIM，PGD，Deepfool，和CW和不同的受害者模型8层CNN和16层VGG。我们将我们的方法与不同的对抗攻击和不同的受害者模型30攻击设置进行了艺术自我监督检测方法的方法，并且它在各种测量AUC，FPR，TPR中表现出更好的性能，用于大多数攻击设置。理想情况下，AUC是1，我们的方法在CIFAR 10上实现了0.99的所有攻击。值得注意的是，与其他基于AutoEncoder的检测器不同，我们的方法可以为自适应对手提供抵抗力。

Active Terahertz Imaging Dataset for Concealed Object Detection
Authors Dong Liang, Fei Xue, Ling Li
太赫兹成像中隐藏的物体检测是对公安和反恐的迫切需要。在本文中，我们提供了一个公共数据集，用于评估活动太赫兹成像分辨率5mm的有源太赫兹成像分辨率5mm的多目标检测算法。据我们所知，这是准备评估对象检测算法的第一个公共太赫兹映像数据集。由于其较差的成像质量，该数据集上的对象检测比在那些标准的公共对象检测数据集上得多。面对物体检测和硬训练样本中的不平衡样本的问题，我们在该数据集上评估四个流行的探测器Yolov3，Yolov4，Frcn Ohem和Retinanet。实验结果表明，Retinanet实现了最高的地图。此外，我们证明了人体不同部分中的隐藏物体影响检测精度。数据集可用

A Novel Triplet Sampling Method for Multi-Label Remote Sensing Image Search and Retrieval
Authors Tristan Kreuziger, Mahdyar Ravanbakhsh, Beg m Demir
学习遥感RS图像之间的相似性形成基于内容的RS图像检索CBIR的基础。最近，深度度量学习方法将图像的语义相似性映射到嵌入空间中已经发现在卢比中非常流行。学习公制空间的常见方法依赖于将相似的正和不相似的负图像的三元组的选择依赖于称为锚的参考图像。选择三胞胎是一种难以任务，特别是对于多标签RS CBIR，其中每个训练图像由多个类标签注释。为了解决这个问题，在本文中，我们在为多标签RS CBIR问题定义的深神经网络DNN框架中提出了一种新颖的三态采样方法。该方法基于两个主要步骤选择一小组最具代表性和信息性三元组。在第一步中，使用迭代算法从当前迷你批量选择嵌入空间中彼此多样化的一组锚。在第二步中，通过基于新颖的排名策略评估相互评估的相关性，硬度和多样性，为每个锚选择不同的正负图像。在两个多标签基准测试中获得的实验结果表明，在DNN的上下文中选择最具信息丰富和代表性的三胞胎，导致I降低DNN训练阶段的计算复杂性，而无需对性能的任何显着损失和增加由于信息性三元组允许快速收敛，因此在学习速度。该方法的代码公开可用

CASIA-Face-Africa: A Large-scale African Face Image Database
Authors Jawad Muhammad, Yunlong Wang, Caiyong Wang, Kunbo Zhang, Zhenan Sun
面部识别是我们社会中具有广泛应用的流行且研究的地区。然而，在最多的艺术SOTA面部识别系统中被证明是固有的种族偏见。对人脸识别算法的许多调查研究报告了非洲受试者队列的误差率高于其他队列。缺乏公共领域的大规模非洲面部图像数据库是研究人脸识别的种族偏见问题的主要限制之一。为此，我们收集一个面部图像数据库，即卡西亚面部非洲，其中包含38,546个非洲受试者的图像。利用多谱相机在各种照明设置下捕获面部图像。还仔细记录了受试者的人口统计属性和面部表达式。对于地标检测，数据库中的每个面部图像都用68个面部键盘手动标记。根据不同的应用程序，任务，分区和方案构建一组评估协议。没有重新训练的SOTA面部识别算法的性能被报告为基线。拟议的数据库以及其面部地标注释，评估协议和初步结果形成了一个良好的基准，研究了非洲受试者面部生物识别性的基本方面，特别是面部图像预处理，面部特征分析和匹配，面部表情识别，性别时代估计，民族分类，面部图像生成等。数据库可以从我们的

ABCNet v2: Adaptive Bezier-Curve Network for Real-time End-to-end Text Spotting
Authors Yuliang Liu, Chunhua Shen, Lianwen Jin, Tong He, Peng Chen, Chongyu Liu, Hao Chen
结束于最终文本发现，旨在将检测和识别集成在统一的框架中，由于两个免费任务的简单性，引起了越来越多的关注。尤其是在处理任意形状的文本实例时仍然是一个开放问题。以前的方法可以大致分为两个基于组字符的字符和基于分段，这通常需要由于非结构化输出而导致的字符级注释和或复杂的后处理。在这里，我们通过呈现自适应Bezier曲线网络V2 ABCNet V2来解决结束到结束文本发现。我们的主要贡献是第一次折叠1，我们通过参数化的Bezier曲线自适应地拟合任意形状的文本，与基于分段的方法相比，不仅可以提供结构化输出，还可以提供可控的表示。 2我们设计了一种新型Bezieralign层，用于提取任意形状的文本实例的准确卷积特征，显着提高了先前方法的识别精度。 3与以前的方法不同，该方法经常遭受复杂的后处理和敏感的超参数，我们的ABCNet V2维护了一个简单的管道，其中包含唯一的后处理非最大抑制NMS。 4作为文本识别的性能紧密依赖于特征对齐，ABCNET V2进一步采用简单但有效的坐标卷积来编码卷积滤波器的位置，这导致可忽略的计算开销具有相当大的改进。在各种双语英语和中国基准数据集上进行的综合实验表明ABCNET V2可以在保持非常高的效率的同时实现最先进的性能。

Optimising Resource Management for Embedded Machine Learning
Authors Lei Xun, Long Tran Thanh, Bashir M Al Hashimi, Geoff V. Merrett
由于延迟，隐私和连接的明显优势，机器学习推断越来越多地在移动和嵌入式平台上执行。在本文中，我们在异构多核系统中提供了在线资源管理的方法，并展示了如何应用于优化机器学习工作负载的性能。可以使用平台所依赖的平台定义性能。速度，能量和平台独立精度，置信度量。特别是，我们展示了深度神经网络DNN如何动态可扩展以缩小这些各种性能度量。由于提供的不同资源及其能力，在执行不同平台上执行时，在不同平台上执行持态度且具有挑战性的一致性，以及它们在执行其他工作负载时执行的时间变化。在可用硬件资源之间管理界面通常在性质中众多和异构，软件要求和用户体验越来越复杂。

Incremental Training and Group Convolution Pruning for Runtime DNN Performance Scaling on Heterogeneous Embedded Platforms
Authors Lei Xun, Long Tran Thanh, Bashir M Al Hashimi, Geoff V. Merrett
由于其在延迟，隐私和连接中的优点，对深度神经网络的推论越来越多地在移动和嵌入式平台上执行。由于芯片上的现代系统通常同时执行不同和动态工作负载的组合，因此由于DNN可用的本地计算资源而持续地满足运行时的推理时间能量预算是具有挑战性的。为了解决这一挑战，提出了各种动态DNN。但是，这些工作具有重要的内存开销，有限的运行时可恢复的压缩率和窄动态缩放范围。在本文中，我们使用增量培训和组卷积修剪来提出动态DNN。 DNN卷积层的通道被分成基团，然后逐渐培训。在运行时，可以将以下组进行修剪以进行推理时间能量减少或添加回溯以进行准确恢复，而无需模型再培训。此外，我们将任务映射和动态电压频率缩放DVFS与我们的动态DNN相结合，以在更广泛的动态范围内提供精度和时间功率能量之间的更精细的折衷。我们通过修改CIFAR10图像数据集的AlexNet来说明方法，并评估我们在两种异构硬件平台上的工作Otroid Xu3 Arm Big.Little CPU和NVIDIA Jetson Nano CPU和GPU。与现有的作品相比，我们的方法可以提供高达2.36倍的能量和2.73倍的时间更宽的动态范围，具有相同压缩率的2.4倍较小的内存占地面积。它通过与任务映射和DVF组合实现了10.6倍的能量和41.6倍的时间更广泛的动态范围。

Dynamic-OFA: Runtime DNN Architecture Switching for Performance Scaling on Heterogeneous Embedded Platforms
Authors Wei Lou, Lei Xun, Amin Sabet, Jia Bi, Jonathon Hare, Geoff V. Merrett
越来越需要移动和嵌入式平台来跨异构处理元件有效地执行计算要求的DNN。在运行时，由于其他同时运行的应用程序，可用硬件资源可能会随着其他同时运行的应用而变化。应用程序的性能要求也可能在不同的情况下更改。为了实现所需的性能，已经提出了动态DNN，其中可以实时缩放通道层的数量，以满足不同的资源约束下的不同要求。然而，这种动态DNN的训练过程可能是昂贵的，因为必须刷新不同部署方案的平台意识模型以变为动态。本文提出了一种动态的动态，一种新的动态DNN方法，用于艺术平台的状态感知NAS模型I.E.对于所有网络的一次。动态OF A OF OF Samples来自静态骨干模型的子网系列，并包含一个运行时管理器，可以在不同的运行时环境下选择不同的子网。因此，动态的OFA不需要传统的动态DNN训练管道。与现有技术相比，我们在Jetson Xavier NX上使用Imagenet的实验结果表明，该方法高达3.5倍CPU，2.4倍GPU，类似的ImageNet前1个精度，或3.8 CPU，5.1 GPU高精度相似潜伏。

Facial Emotion Recognition: State of the Art Performance on FER2013
Authors Yousif Khaireddin, Zhuofa Chen
面部情感识别FER对于人类计算机相互作用如临床实践和行为描述。由于人面的异质性和不同面部姿势和照明等图像的变化，计算机模型的准确性和强大的COR仍然具有挑战性。在FER的所有技术中，深度学习模型，特别是卷积神经网络CNNS由于其强大的自动特征提取和计算效率而显着潜力。在这项工作中，我们在FER2013数据集中达到了最高的单一网络分类准确性。我们采用VGGNet架构，严格精细调整其超参数，并以各种优化方法进行实验。为了我们的最佳知识，我们的模型在FER2013上实现了73.28的艺术单一网络精度的状态，而无需额外的培训数据。

Sign-Agnostic CONet: Learning Implicit Surface Reconstructions by Sign-Agnostic Optimization of Convolutional Occupancy Networks
Authors Jiapeng Tang, Jiabao Lei, Dan Xu, Feiying Ma, Kui Jia, Lei Zhang
点云的表面重建是计算机视觉和图形社区的基本问题。最近的技术通过在推理期间单独优化每个本地隐式字段来解决此问题。在不考虑本地字段之间的几何关系，它们通常需要准确的法线以避免本地字段重叠区域中的符号冲突问题，这严重限制了它们对曲面法线可能不可用的原始扫描的适用性。虽然SAL通过符号禁止学习来打破这种限制，但它仍然是未探索如何将该管道扩展到本地形状建模。为此，我们建议通过卷积占用网络的符号不可知性优化来学习隐式表面重建，同时实现统一框架中的高级可扩展性，一般性和适用性。在本文中，我们还通过简单而有效的设计，可以有效地实现这一目标，该设计可以通过具有无符号二进制交叉熵丢失的沙漏网络架构的卷积特征来优化占用字段。与以前的对象水平和场景级数据集具有广泛的实验比较，以及场景级数据集展示了我们从联合国定向点云表面重建方法的卓越准确性。

Unsupervised Remote Sensing Super-Resolution via Migration Image Prior
Authors Jiaming Wang, Zhenfeng Shao, Tao Liu, Xiao Huang, Ruiqian Zhang, Yu Wang
最近，具有高时间分辨率的卫星在各种实际应用中促进了广泛的关注。然而，由于带宽和硬件成本的限制，这种卫星的空间分辨率相当低，在很大程度上限制了它们在需要空间显式信息的场景中的潜力。为了提高图像分辨率，已经提出了基于训练低分辨率对的许多方法来解决超级分辨率SR任务。然而，尽管取得了成功，但低空间分辨率对通常难以在卫星上以高颞分辨率获得，使得在SR中使用这种方法是不切实际的使用。在本文中，我们提出了一个名为MIP的新的无人监督的学习框架，其在没有低分辨率图像对的情况下实现了SR任务。首先，将随机噪声图馈送到设计的生成的对抗性网络GAN中进行重建。然后，所提出的方法将参考图像转换为先前迁移图像的潜在空间。最后，我们通过隐式方法更新输入噪声，并进一步从参考图像传输纹理和结构化信息。在Draper DataSet上的广泛实验结果表明，MIP定量和定性地实现了对现有技术方法的显着改进。拟议的MIP是开放的

Learning to Predict Repeatability of Interest Points
Authors Anh Dzung Doan, Daniyar Turmukhambetov, Yasir Latif, Tat Jun Chin, Soohyun Bae
许多机器人应用需要在不同的观点和照明条件下高度重复的兴趣点。然而，由于环境不断和无限期地改变，这一要求非常具有挑战性，导致相对于时间的兴趣点的外观变化。本文提出以时间的函数预测兴趣点的可重复性，这可以告诉我们考虑日常或季节性变化的兴趣点的寿命。可重复性预测器RP被配制成在很长一段时间内从多个观点的重复兴趣点训练的回归。通过综合实验，我们证明我们的RP可以在重复新的兴趣点时估计，并且还突出了关于这个问题的有敏感分析。有关进一步的比较，我们将RP应用于视觉本地化框架下的地图摘要，该框架在给定查询时间的完整上下文映射的紧凑型表示下。实验结果表明，仔细选择我们RP预测的潜在可重复的兴趣点，可以显着降低映射概要的定位精度的退化。

Domain-Specific Suppression for Adaptive Object Detection
Authors Yu Wang, Rui Zhang, Shuo Zhang, Miao Li, YangYang Xia, XiShan Zhang, ShaoLi Liu
域适应方法面部性能下降在对象检测中，因为任务的复杂性需要更多关于模型的可转换性。我们提出了一种新的视角，即CNN模型如何获得可转换性，将模型的重量视为一系列运动模式。权重和梯度的方向可以分为域特定和域不变的部分，域适应的目标是集中在域不变方向上，同时消除特定域的干扰。当前UDA对象检测方法在优化的同时查看两个方向，即使输出功能完美对齐，也会导致域不变方向不匹配。在本文中，我们提出了对域的特定抑制，对原始卷积梯度的域特定抑制，以拆分两部分方向和抑制域特定的域的示例性和概括的约束。我们进一步验证了我们在几个域自适应对象检测任务中的理论分析和方法，包括天气，相机配置和合成符合现实世界的适应性。我们的实验结果显示了在UDA对象检测场中的最先进方法的最终状态，在所有这些域适应方案上执行促销10.2 SIM12.2 MAP。

Improving Robustness for Pose Estimation via Stable Heatmap Regression
Authors Yumeng Zhang, Li Chen, Yufeng Liu, Xiaoyan Guo, Wen Zheng, Junhai Yong
深度学习方法在姿势估算中取得了良好的性能，但缺乏鲁棒性导致关键点在类似图像之间大大变化。鉴于该问题，提出了一种稳定的热爱回归方法，以减轻对小扰动的网络脆弱性。我们利用Heatmap中的不同行和列之间的相关性来缓解多峰值问题，并设计高度分化的热图回归，以使关键点判别周围点。最大稳定性训练损失用于简化最小化两个类似图像的预测差距时的优化难度。所提出的方法在两个基准数据集上实现了最先进的现有方法的鲁棒性的显着提前，并保持高性能。

Video Class Agnostic Segmentation with Contrastive Learningfor Autonomous Driving
Authors Mennatullah Siam, Alex Kendall, Martin Jagersand
自主行动中的语义分割主要侧重于使用一组封闭的已知类别来学习，而不考虑未知对象。通过安全原因激励，我们解决了视频类不可知性的分段任务，该任务将未知对象考虑在我们的培训数据中的已关闭的已知类别中。我们提出了一种新颖的辅助对比损失，以学习已知类别和未知物体的分割。与以往的对比学习的工作不同，以对图像水平进行采样，对比的学习方法利用像素明智的语义和时间指导来利用像素。我们通过扣除四个课程进行城市景观VPS的实验，并为具有辅助对比损失的辅助对比损失显示已知和未知对象分割的改善。我们进一步发布了一个大规模的合成数据集，用于不同的自主驱动场景，包括不同和罕见的未知对象。我们在完整的合成数据集和减少的小规模版本上进行实验，并显示对比学学习在小型数据集中更有效。我们提出的型号，数据集和代码将被释放

The iWildCam 2021 Competition Dataset
Authors Sara Beery, Arushi Agarwal, Elijah Cole, Vighnesh Birodkar
摄像机陷阱使大量图像数据的自动集合能够实现。生态学家使用相机陷阱来监测世界各地的动物人口。为了估计来自相机陷阱数据的丰富物种，生态学家需要知道不仅仅是哪些物种，还需要多种物种。物体检测技术可用于在每个图像中找到各个的数量。然而，由于相机陷阱在运动触发突发中收集图像，因此只需加上所有帧的检测次数可能导致错误的估计。克服这些障碍可能需要在除了传统的物种检测和分类之外，还需要纳入时空时间推理或单独的重新识别。

Human-Aided Saliency Maps Improve Generalization of Deep Learning
Authors Aidan Boyd, Kevin Bowyer, Adam Czajka
深度学习在许多计算机视觉问题中推动了显着的准确性。一个持续的挑战是如何在培训数据有限的情况下实现最大的准确性。第二次持续挑战是训练有素的模型有时易碎，即所取得的准确性不会概括到概括，甚至到具有与训练集的主观类似的新数据。我们以一种小说方式解决了这些挑战，首先是我们了解对培训数据中的突出区域的人工判断进行了知识探索。我们比较了在具有典型数据增强的原始图像上训练的生物识别介绍攻击检测中难题的最难题的准确性和泛化，并且B与变换相同的原始图像以编码突出图像区域的人工判断。后一种方法导致实现更高的精度和更好的概率的模型，将Livdet IRIS 2020获胜者的错误从29.78降低到16.37，并在休假类型输出评估方案中实现令人印象深刻的泛化。这项工作开启了如何将人类智能融入深度学习的培训策略的新研究领域，以在有限培训数据的情况下实现高精度和泛化。

Estimating Parkinsonism Severity in Natural Gait Videos of Older Adults with Dementia
Authors Andrea Sabo, Sina Mehdizadeh, Andrea Iaboni, Babak Taati
药物诱导的帕金森主义影响了许多患有痴呆症的老年人，通常会导致步态紊乱。基于视觉的人类姿势估计的新进展已经开辟了住宅环境中的步态频繁和不引人注目的分析的可能性。这项工作提出了新的空间时间图卷积网络St GCN架构和培训程序，以预测来自痴呆症的个体视频的步态中的帕金森主义临床评分。我们提出了一种两个阶段培训方法，包括一个自我监督的预测阶段，鼓励圣GCN模型在预测FineTuning阶段预测临床评分之前了解步态模式。所提出的ST GCN模型在视频中提取的关节轨迹中评估，并与传统的序数，线性，随机森林回归模型和时间卷积网络基线进行比较。三个2D人类姿势估计图书馆透露，戒断，α-和Microsoft Kinect 2D和3D用于从53名患有痴呆症的53名成人中提取4787自然走路的关节轨迹。从14名参与者的399次散步的子集是以统一的帕金森S病评级updrs和辛普森安斯规模SAS的步态标准的帕金森主义严重程度。我们的结果表明，ST GCN模型在从Kinect提取的3D关节轨迹上运行，始终如一地优于所有其他型号和功能集。在看不见者的自然行走伴侣中的Parkinsonism评分的预测仍然是一个具有挑战性的任务，最佳模型分别实现宏观的宏观分数为0.53 0.03和0.02，分别用于updrs步态和SAS步态。可以提供预训练的模型和演示代码

Optimization of Graph Neural Networks: Implicit Acceleration by Skip Connections and More Depth
Authors Keyulu Xu, Mozhi Zhang, Stefanie Jegelka, Kenji Kawaguchi
图表神经网络GNN已经从表现力和泛化的镜头研究。然而，它们的优化性能不太了解。我们通过研究GNN的梯度动态来迈出第一步分析GNN培训。首先，我们分析线性化GNN并证明，尽管我们在真实世界图上验证的温和假设下，尽管训练的非凸起，但以线性速度为线性速率的收敛是保证的。其次，我们研究了可能影响GNNS训练速度的内容。我们的研究结果表明，通过跳过连接，更深度和良好的标签分布，MNN的培训是隐含的加速。经验结果证实，我们的线性化GNN的理论结果与非线性GNN的训练行为对齐。我们的结果为GNN的成功提供了在优化方面具有跳过连接的第一个理论支持，并建议在实践中具有跳过连接的深层GNN。

Learning High-Dimensional Distributions with Latent Neural Fokker-Planck Kernels
Authors Yufan Zhou, Changyou Chen, Jinhui Xu
学习高维分布是在各个域中的应用程序学习中的一个重要而有挑战性的问题。在本文中，我们引入了新技术，以制定解决较低维潜空间中的Fokker普朗克方程的问题，旨在减轻高维数据空间中的挑战。我们所提出的模型包括潜在分布变形，发电机和参数化Fokker Planck内核功能。我们模型的一个迷人的财产是，它可以接受潜在分布变形的任意步骤，或者即使没有变形，这使得它可以灵活，并且与生成的对抗网络导致有效。此外，这种特性还使我们的潜在分布变形是一种有效的插头和游戏方案，因此可以用于改善任意的GAN，更有趣的是，可以有效地纠正GaN模型的故障情况。广泛的实验说明了我们在现有模型上提出的方法的优点。

Improved Simultaneous Multi-Slice Functional MRI Using Self-supervised Deep Learning
Authors Omer Burak Demirel, Burhaneddin Yaman, Logan Dowdle, Steen Moeller, Luca Vizioli, Essa Yacoub, John Strupp, Cheryl A. Olman, K mil U urbil, Mehmet Ak akaya
功能性MRI FMRI通常用于解释大脑中的神经活动。众多加速的FMRI技术旨在提供改善的时空分辨率。其中，同时多层SMS成像已成为一种强大的策略，成为大规模研究的一部分，例如人类连接项目。然而，当SMS成像与较高加速率的平面加速结合时，传统的SMS重建方法可能遭受噪声放大和其他伪像。最近，深入学习DL技术对改善MRI重建来获得兴趣。然而，这些方法通常以监督方式训练，这需要完全采样的参考数据，这在高度加速的FMRI采集中是不可行的。最近提出了不需要完全采样数据的自我监督学习，并为监督学习表现出类似的性能。但是，它只应用于平面加速度。此外，DL重建对随后的FMRI分析的影响尚不清楚。在这项工作中，我们将自我监督的DL重建扩展到SMS成像。我们的结果在前瞻性10倍加速7T FMRI数据显示，自我监督的DL降低了重建噪声并抑制了残余伪影。随后的FMRI分析仍然是DL处理的不妨碍，而改进的时间信号到噪声比在任务运行之间产生更高的相干估计。

Generalized Jensen-Shannon Divergence Loss for Learning with Noisy Labels
Authors Erik Englesson, Hossein Azizpour
我们提出了基于Jensen Shannon发散的两种新颖的损失功能，以便在标签噪声下学习。在Ghosh等人的工作之后。 2017年，我们争论他们的理论稳健性。此外，通过绘制各种损耗功能，例如跨熵，平均误差，通用交叉熵，对称交叉熵，标记平滑以及最重要的一致性正规化，以及最重要的一致性正则化的若干其他理想的属性。我们使用合成的CiFar和真实的WebVision噪声进行广泛和系统的实验，并证明对其他损耗功能的显着和一致的改进。此外，我们开展了几个信息，突出了不同的理论性质。

Galois/monodromy groups for decomposing minimal problems in 3D reconstruction
Authors Timothy Duff, Viktor Korotynskiy, Tomas Pajdla, Margaret H. Regan
我们考虑在计算机视觉应用中产生的Galois Monodromy团体，以建立更有效的多项式溶剂。 Galois Monodromy Group允许我们确定给定的问题何时分解成代数子问题，以及它是否具有任何对称性。来自数值代数几何和计算集团理论的工具允许我们将该框架应用于古典和新的重建问题。我们考虑三个古典案例3点绝对姿势，5点相对姿势和4点相同的校准相机估计，其中分解和对称性可以在伽罗尼士单曲粒组方面自然地理解。然后，我们展示了我们的框架如何应用于绝对和相对姿势估计的新颖问题。例如，我们发现了涉及点和线特征混合的绝对构成问题的新对称性。我们还描述了估计三个图像之间一对校准沉默的问题。对于64学位的问题，我们可以将程度降低到16日后更好地反映了代数解决问题的内在难度。作为副产品，我们为兼容的识别获得了新的约束，这可能是独立的兴趣。

AWCD: An Efficient Point Cloud Processing Approach via Wasserstein Curvature
Authors Yihao Luo, Ailing Yang, Fupeng Sun, Huafei Sun
在本文中，我们介绍了Adapive Wassersein曲率弯曲的AWCD，是点云数据的原始处理方法。通过从Wassersein距离收集曲率信息，AWCD考虑更精确的数据结构，即使对于具有高密度噪声的数据，也可以保留稳定性和有效性。本文含有关于Wassersein曲率的一些理论分析和AWCD的完整算法。此外，我们设计数字实验以显示AWCD的去噪效果。根据比较结果，我们展示了AWCD对传统算法的优势。

A framework for the automation of testing computer vision systems
Authors Franz Wotawa, Lorenz Klampfl, Ledio Jahaj
视觉系统，即允许检测和跟踪图像物体的系统，在过去几十年中获得了重大重要性。它们用于质量保证应用，例如，用于在制造期间寻找产品的表面缺陷，但也可以自动驾驶，需要可靠的行为。有趣的是，一般来说，只有很少的工作质量保证，特别是对视觉系统的测试。在本文中，我们有助于测试视觉软件的领域，并为基于视觉和图像识别的系统进行自动生成测试的框架。该框架利用现有的库允许修改原始图像并获得原始图像和修改图像之间的相似性。我们展示了这种框架如何用于测试特定的工业应用程序，用于识别Riblet表面上的缺陷并从图像分类域提出初步结果。

Coconut trees detection and segmentation in aerial imagery using mask region-based convolution neural network
Authors Muhammad Shakaib Iqbal, Hazrat Ali, Son N. Tran, Talha Iqbal
在地震，旋风和海啸等灾难性的非凡情况下，食品资源面临严重损害。在这种情况下，从农业土地中对食品资源的快速评估至关重要，因为它支持灾害击中地区的援助活动。在本文中，在通过世界银行组织的AI竞争与OpenAerialMap和Werobotics合作，提供了一种深入学习方法，用于通过世界银行组织的AI竞争提供的空中图像中的椰子束。基于Maked地区的卷积神经网络方法是使用椰子树的识别和分割。对于分段任务，使用具有ResET50和基于Resnet1010的体系结构的Mask R CNN模型。报道了几个具有不同配置参数的实验，并报道了具有超过90个置信因子的椰子树的最佳配置。出于评估目的，使用Microsoft Coco DataSet评估度量即平均平均精度图。实现了椰子树检测的总体91平均平均精度。

Weakly supervised pan-cancer segmentation tool
Authors Marvin Lerousseau, Marion Classe, Enzo Battistella, Th o Estienne, Th ophraste Henry, Amaury Leroy, Roger Sun, Maria Vakalopoulou, Jean Yves Scoazec, Eric Deutsch, Nikos Paragios
绝大多数语义分割方法依赖于像素级别注释，这是乏味且耗时的，以获得和遭受显着的间间和帧内专业的变化。为了解决这些问题，最近的方法已经在幻灯片级别利用分类注释，这通常遭受鲁棒性和泛化。在本文中，我们提出了一种新型弱监督的多实例学习方法，即抵消临床常规中快速获得和定期存在的定量幻灯片水平注释。所提出的方法的极端电位用于肿瘤分割的固体癌亚型。所提出的方法可以在分发，出于位置和域测试集中实现卓越的性能。

In-Hindsight Quantization Range Estimation for Quantized Training
Authors Marios Fournarakis, Markus Nagel
应用于深神经网络的推动的量化技术在资源约束设备上启用了快速有效地执行。在推理期间的量化成功使学术界探讨了完全量化的训练，即量化背部传播。然而，有效的梯度量化仍然是一个开放的问题。梯度在训练期间，它们的分布显着变化，这导致动态量化。正如我们所示，动态量化会导致显着的内存开销和额外的数据流量减慢训练。我们提出了一种简单的动态量化，在后视范围估计中，使用在先前的迭代上估计的量化范围来量化当前。我们的方法能够快速静态量化梯度和激活，同时只需要从神经网络加速器的最小硬件支持，以便以在线方式跟踪输出统计信息。它旨在作为估计量化范围的替代品的替代品，并且可以与量化训练的其他进步结合使用。我们将我们的方法与量化培训文献的范围估计的现有方法进行比较，并展示其与一系列架构，包括MobileNetv2的效力，在图像分类基准上微小的想象成想象。

T-EMDE: Sketching-based global similarity for cross-modal retrieval
Authors Barbara Rychalska, Mikolaj Wieczorek, Jacek Dabrowski
跨模型检索的关键挑战是在用不同方式表示的对象之间找到相似之处，例如图像和文本。然而，每个模态嵌入源于非相关特征空间，这导致臭名昭着的异质性差距。目前，许多跨模型系统试图通过自我关注弥合差距。然而，自我关注被广泛批评其二次复杂性，这可以防止许多现实生活中的应用。响应于此，我们提出了一种由最近引入的高效歧管密度估计器EMDE的神经密度估计器，从推荐系统的区域。 EMDE在草图上操作，特别适用于多式联运操作。但是，EMDE是非微分，摄取预先染色的静态嵌入。使用T EMDE，我们介绍了允许全新培训的EMDE的培训版本。与自我关注相比，我们解决方案的复杂性与令牌段的数量是线性的。因此，T EMDE是对自我注意模块的替代品，对跨模态设置中的速度和度量性能有益影响。它促进了模态之间的通信，因为每个全局文本图像表示用标准化的草图直方图表示，其表示相同的歧管结构，而不管底层的模态。我们通过将其介绍到最近的两个跨模型SOTA模型，并在多个数据集上实现新的最新状态，并将模型延迟减少到20个，从而评估其新的最新状态。

De-homogenization using Convolutional Neural Networks
Authors Martin O. Elingaard, Niels Aage, J. Andreas B rentzen, Ole Sigmund
本文介绍了基于深度学习的结构合规最小化的均质化方法。通过使用卷积神经网络从粗地网格上的一组层压参数参数化映射到细网上的一个比例设计，我们避免解决与传统的均匀化方法相关的最小二乘问题并相应地节省时间。为了训练神经网络，已经开发了两步自定义损失功能，其确保了遵循局部层叠方向的周期性输出字段。该方法的一个关键特征是在没有任何使用或引用潜在的结构优化问题的情况下进行训练，这使得提出的方法鲁棒和不敏感的WRT。域大小，边界条件和装载。利用输出场骨架上利用距离变换的后处理过程用于将所需的层压宽度投影到输出场上，同时确保预定义的最小长度比例和体积分数。为了证明深度学习方法具有优异的泛化特性，示出了数值示例对于几种不同的负载和边界条件。对于适当的参数选择，DE均质化设计以计算成本的一小部分在基于均化的溶液的75中执行。对于进一步改进的几种选择，该方案可以为未来的交互式高分辨率拓扑优化提供基础。

The Modulo Radon Transform: Theory, Algorithms and Applications
Authors Matthias Beckmann, Ayush Bhandari, Felix Krahmer
最近，通过融合多个断层投影，研究人员能够以启发式方式执行高动态范围HDR断层扫描的实验。这种HDR断层扫描方法已经受到HDR摄影的启发，并继承了相同的缺点。采用计算成像方法对HDR断层扫描问题，我们在此提出了一种基于Modulo Radon Transform MRT的新模型，我们严格地引入和分析。通过利用硬件和算法之间的联合设计，我们提出了一种对我们所知的单一拍摄HDR断层扫描方法，是唯一由数学担保支持的方法。

Inter-GPS: Interpretable Geometry Problem Solving with Formal Language and Symbolic Reasoning
Authors Pan Lu, Ran Gong, Shibiao Jiang, Liang Qiu, Siyuan Huang, Xiaodan Liang, Song Chun Zhu
几何问题解决是最近在NLP社区中引起了很多关注。这项任务是具有挑战性的，因为它需要抽象的问题理解和具有公理知识的象征性推理。但是，当前数据集是小的或不公开的。因此，我们构建了一个新的大规模基准，Geometry3k，由3,002个几何问题组成，具有正式语言的密集注释。我们进一步提出了一种以正式的语言和象征推理的新型几何求解方法，称为可解释几何问题求解器Ind GPS。通过基于规则的文本解析和神经对象检测，Inter GPS首先将问题文本和图表分别解析为正式的语言。与现有方法中的隐式学习不同，GPS Inter GPS将定理知识包含为条件规则，并通过步骤执行符号推理。定理预测器还被设计用于推断馈送到符号求解器的定理应用序列，以获得更有效和合理的搜索路径。在Geometry3k和Geos Datasets上的广泛实验证明了Inter GPS对现有方法的显着改进。

DiagSet: a dataset for prostate cancer histopathological image classification
Authors Micha Koziarski, Bogus aw Cyganek, Bogus aw Olborski, Zbigniew Antosz, Marcin ydak, Bogdan Kwolek, Pawe W sowicz, Andrzej Buka a, Jakub Swad ba, Piotr Sitkowski
癌症疾病构成了最重要的社会挑战之一。本文介绍了一种新的组织病理学数据集，用于前列腺癌检测。由从430个完全注释的扫描中提取的超过260万个组织斑块组成的拟议数据集，可以找到460次扫描的4675次扫描，并通过一组组织病理学家独立诊断46次扫描

Acute Lymphoblastic Leukemia Detection from Microscopic Images Using Weighted Ensemble of Convolutional Neural Networks
Authors Chayan Mondal, Md. Kamrul Hasan, Md. Tasnim Jawad, Aishwariya Dutta, Md.Rabiul Islam, Md. Abdul Awal, Mohiuddin Ahmad
急性淋巴细胞白血病一切都是血细胞癌，其特征在于许多未成熟的淋巴细胞。尽管在所有预后的自动化是癌症诊断的重要方面，因此由于恶性和正常细胞之间的形态相关性而挑战。传统的所有分类策略要求经验丰富的病理学家仔细阅读细胞图像，这是艰巨，耗时的，并且经常受到观察者变化的差异。本文已自动从微观细胞图像中自动化所有检测任务，采用深卷积神经网络CNNS。我们探索不同深CNN的加权集合，推荐更好的所有单元格分类器。合并候选模型的权重估计它们对应的度量，例如精度，F1得分，AUC和Kappa值。结合了各种数据增强和预处理，用于实现网络更好的概括。我们利用公开可用的C NMC 2019所有数据集进行所有综合实验。我们提出的加权集合模型，使用集合候选者的Kappa值作为其权重，已经输出了88.6的加权F1得分，均衡精度为86.2，以及初步测试集中的0.941的AUC。显示渐变类激活图的定性结果证实了介绍的模型具有集中的学习区域。相反，集合候选模型，例如Xcepion，VGG 16，DenSenet 121，MobileNet和IncepionResNet V2，分别为大多数示例案例产生粗略和散射学习区域。由于所提出的基于Kappa值的加权集合来产生更好的结果，以便在本文中的目标任务，它可以在其他医疗诊断应用领域进行实验。

Lightweight Image Super-Resolution with Hierarchical and Differentiable Neural Architecture Search
Authors Han Huang, Li Shen, Chaoyang He, Weisheng Dong, Haozhi Huang, Guangming Shi
单个图像超级分辨率SISR任务与深神经网络实现了显着性能。但是，基于CNN的SISR任务方法中的大量参数需要重量计算。虽然最近提出了几种高效的SISR模型，但大多数是手工制作的，因此缺乏灵活性。在这项工作中，我们提出了一种新颖的可分解神经结构搜索NAS方法，可以在单元级和网络级别寻找轻量级SISR模型。具体地，小区级搜索空间基于信息蒸馏机构设计，专注于轻质操作的组合，并旨在构建更轻便和准确的SR结构。网络级搜索空间旨在考虑单元格之间的特征连接，并旨在找到哪些信息流量有用，以提高性能。与现有的加强学习RL或进化算法基于EA的SISR任务的NAS方法不同，我们的搜索管道是完全可疑的，并且可以在单个GPU上共同地在单元格级和网络电平上有效地搜索轻量级SISR模型。实验表明，我们的方法可以在PSNR，SSIM，SSIM，SSIM和Model复杂性方面达到基准数据集的最新状态，仅为68G多增加2和18G多个添加时间4 SR任务。代码将在URL上使用

Improving Cost Learning for JPEG Steganography by Exploiting JPEG Domain Knowledge
Authors Weixuan Tang, Bin Li, Mauro Barni, Jin Li, Jiwu Huang
尽管最近已经实现了立式书记成本的自动学习的显着进展，但对于空间图像设计的现有方法不太适用于日常生活中更常见的媒体的JPEG图像。迁移的困难主要是由8x8 DCT模式结构引起的独特和复杂的JPEG特性。为了解决问题，在本文中，我们将现有的自动成本学习方案扩展到JPEG，其中明确地设计了拟订具有加强学习的JEC RL JPEG嵌入成本的方案来定制JPEG DCT结构。它适用于削减钢筋学习的嵌入动作采样机制，策略网络通过最大化环境网络提供的奖励来了解最佳嵌入策略。提出了策略网络在域转换设计范式之后构建，其中提出了三个模块，包括像素电平纹理复杂性评估，DCT特征提取和模式明智的重排。这些模块在串行中运行，逐渐从解压缩的JPEG图像中提取有用的特征，并将它们转换为DCT元素的嵌入策略，同时考虑JPEG特性，包括同时包括块和帧内块的相关性。环境网络以梯度面向的方式设计，通过使用配备有8x8 DCT基础滤波器的固定预处理层的宽架构提供稳定的奖励值。广泛的实验和消融研究表明，该方法可以针对基于高级特征和现代基于CNN基于CNN的STEG分析器来实现JPEG图像的良好安全性能。

Automatic segmentation of vertebral features on ultrasound spine images using Stacked Hourglass Network
Authors Hong Ye Zeng, Song Han Ge, Yu Chong Gao, De Sen Zhou, Kang Zhou, Xu Ming He, Rui Zheng
目的棘突角度水疗中心是表示脊柱三维3d畸形的必要参数之一。我们提出了一种基于堆积的沙漏网络SHN的自动分割方法，以检测超声波US脊柱图像上的棘突SP并测量临床脊柱病毒的水疗。方法培训网络以检测椎体SP和LAMINAE在1200超声图像上的五个地标，并在100图像上验证。将具有突出显示的SP和薄片的所有处理的横向图像重建为3D图像体积，并在投影冠状图像上测量水合物。通过计算培训的网络通过计算正确的关键点PCK的百分比，通过比较美国图像和射线照相的结果，在50微杆对象中评估SPA测量。结果训练网络在测试数据集上实现了高平均PCK 86.8，特别是SP检测的PCK为90.3。从美国和放射线照相方法测量的水疗表现出良好的相关性R 0.85，并且在两个方式之间的平均绝对差异为3.3，其少于临床验收误差5。结论可以使用SHN精确地将椎体特征精确地分段，美国数据SPA的测量结果与来自射线照相的金标准相当。

Learning Image Attacks toward Vision Guided Autonomous Vehicles
Authors Hyung Jin Yoon, Hamid Jafarnejad Sani, Petros Voulgaris
虽然对静态图像攻击的抗逆性神经网络已经成功显示，但是对于攻击在线图像流的几乎没有开发方法，同时考虑到自动车辆，使命和环境的基础物理动态。本文提出了一个在线对抗机器学习框架，可以有效地夺走自治车辆任务。在设计对自动车辆的现有图像攻击方法中，为每个图像帧重复优化步骤。此框架在每个帧中删除了对每个帧的完全融合优化，以实时实现图像攻击。使用钢筋学习，一组图像帧训练生成神经网络，以获得对动态和不确定环境更强大的攻击策略。引入了一个状态估计器，用于处理图像流以将攻击策略的敏感性降低到物理变量，例如未知的位置和速度。提供了一种仿真研究来验证结果。

MetaKernel: Learning Variational Random Features with Limited Labels
Authors Yingjun Du, Haoliang Sun, Xiantong Zhen, Jun Xu, Yilong Yin, Ling Shao, Cees G. M. Snoek
很少有镜头学习涉及从一些带有一些注释的样本学习的基本和挑战性问题，同时能够概括新任务。少数拍摄学习的关键是从相关任务中提取相关的知识，以便能够快速适应具有有限数量的数据的新任务。在本文中，我们向几个射击学习提出了随机傅里叶功能的Meta学习内核，我们称之为Metakernel。具体地，我们通过利用在元学习设置中利用相关任务提供的共享知识来提出数据驱动的方式以数据驱动的方式提出学习变分随机特征以获得任务特定的内核。我们将随机特征视为潜在的变量，这是通过变分推理估计的。相关任务的共享知识纳入了后续的上下文推理，我们通过长短短期内存模块实现。为了建立更多的富有表现力的内核，我们部署了基于耦合层的条件归一化流动，以实现随机傅立叶基底的更丰富的后部分布。得到的核是更有信息的和歧视，这进一步改善了几个射击学习。为了评估我们的方法，我们对两种射击图像分类和回归任务进行了广泛的实验。一种彻底的消融研究表明，在我们的方法中每个引入的组件的有效性。十四个数据集的基准结果证明了Metakernel始终如一地提供比最佳替代方案的最佳性能和通常更好的性能。

Contrastive Conditional Transport for Representation Learning
Authors Huangjie Zheng, Xu Chen, Jiangchao Yao, Hongxia Yang, Chunyuan Li, Ya Zhang, Hao Zhang, Ivor Tsang, Jingren Zhou, Mingyuan Zhou
对比学习CL在没有标签监督的情况下在学习数据陈述方面取得了显着成功。但是，传统的CL损失对包括多少个负样本以及选择它们的敏感性。本文提出了对比的条件传输CCT，其定义其依赖于样本查询对的CL损失，这在实践中通过绘制随机查询，随机选择正面和负样本来实现，并将这些样品对其对查询的距离进行对比重新重新重新转换这些样本，并施加对朝向查询的更远的阳性样本以及将更近的负样本从查询推动更大的力。理论分析表明，这种独特的对比重传方案有助于表示空间与查询对齐正样本并减少负样本和查询之间的相互信息。关于标准视觉任务的广泛大规模实验表明，CCT不仅始终如一地优于基准数据集中的现有方法，并提供了可解释的对比权重和潜在的表现。将提供Pytorch码。

HamNet: Conformation-Guided Molecular Representation with Hamiltonian Neural Networks
Authors Ziyao Li, Shuwen Yang, Guojie Song, Lingsheng Cai
设计良好的分子表征指纹是将医学化学和深入学习结合的重要性。虽然包含分子的3D几何形状即，其表示似乎有益，所以当前的3D算法仍处于初期阶段。在本文中，我们提出了一种新的分子表示算法，其保留了分子哈密顿网络Hamnet的分子3D构象。在Hamnet中，分子中的隐式位置和原子的动量在离散的Hamilton Aracations之后的Hamiltonian发动机中相互作用。这些隐式协调被监督，具有与翻译旋转不变损耗的实际构象，并进一步用作指纹发生器的输入，是通过神经网络的消息。实验表明，汉密尔顿发动机可以很好地保护分子构象，并且Hamnet产生的指纹在分子上实现最新的艺术性能，标准分子机学习基准。

Chinese Abs From Machine Translation

Papers from arxiv.org

更多精彩请移步主页

pic from pexels.com