【AI视野·今日CV 计算机视觉论文速览第224期】Tue, 22 Jun 2021_fp-age: leveraging face parsing attention for faci-CSDN博客

本文链接：https://blog.csdn.net/u014636245/article/details/118185499

AI视野·今日CS.CV 计算机视觉论文速览
Tue, 22 Jun 2021 (showing first 100 of 122 entries)
Totally 100 papers
👉上期速览✈更多精彩请移步主页

在这里插入图片描述

Daily Computer Vision Papers

Towards Long-Form Video Understanding
Authors Chao Yuan Wu, Philipp Kr henb hl
我们的世界提供了永无止境的视觉刺激流，但今天的Vision Systems仅在几秒钟内准确地识别模式。这些系统了解现在，但未能在过去或未来的事件中形成它。在本文中，我们研究了长期的视频理解。我们介绍了一种用于在大型数据集上建模的长表像和开发评估协议的框架。我们表明，现有的艺术状态短期模型是长期的任务的限制。基于目的基于的基于对象的变压器的视频识别架构在7种不同的任务中执行显着更好。它还优于AVA数据集的相当状态。

Fast Simultaneous Gravitational Alignment of Multiple Point Sets
Authors Vladislav Golyanik, Soshi Shimada, Christian Theobalt
对于任何输入的多个无序点集的同时刚性对准的问题最近引起了越来越多的利益，并且已经新提出了几种可靠的方法。虽然对噪声和聚类异常值非常强大，但目前的方法需要复杂的初始化方案，并且不会很好地扩展到大点集。本文提出了一种新的弹性技术，用于通过将后者解释为刚性地在相互诱导的力场刚性移动的粒子群来同时登记多个点集。由于具有改进的模拟，具有改变的物理定律和与2 d树D的全局乘以连接点交互的加速度是空间维度，我们的多体重力方法MBGA对噪声和缺失数据具有强大的，同时支持比以前的方法更多的大量套件10 5分，更多。在各种实验设置中，MBGA显示在准确性和运行时以若干基线点设定对准方法优于差异。我们使我们的源代码可供社区促进结果的重复性。

Simple Distillation Baselines for Improving Small Self-supervised Models
Authors Jindong Gu, Wei Liu, Yonglong Tian
虽然大型自我监督模型媲美其监督同行的表现，但小型型号仍然奋斗。在本报告中，我们探讨了通过蒸馏改善小自我监督模型的简单基线，称为Simdis。具体而言，我们介绍了一种确定新技术的离线蒸馏基线，以及一种在线蒸馏基线，其具有最小的计算开销的性能。我们希望这些基线将为相关未来研究提供有用的经验。代码可用

Understanding Object Dynamics for Interactive Image-to-Video Synthesis
Authors Andreas Blattmann, Timo Milbich, Michael Dorkenwald, Bj rn Ommer
局部挖掘静态场景的效果是什么，我们提出了一种学习在像素级别的局部操纵引起的全局铰接的方法。培训只需要移动物体的视频，但没有物理场景的潜在操纵的信息。我们的生成模型学会将自然对象动态推断为对用户交互的响应，并了解不同对象身体区域之间的相互关系。给定对象的静态图像和像素的局部戳，然后该方法预测对象如何随时间变形。与现有的视频预测工作相比，我们不合成任意现实视频，以便使局部交互式控制变形。我们的模型不限于特定对象类别，可以将动态传输到新颖的未经对象实例上。与普通视频预测框架相比，各种物体的广泛实验展示了我们方法的有效性。项目页面可用

TokenLearner: What Can 8 Learned Tokens Do for Images and Videos?
Authors Michael S. Ryoo, AJ Piergiovanni, Anurag Arnab, Mostafa Dehghani, Anelia Angelova
在本文中，我们介绍了一种新颖的视觉表示学习，依赖于少数自适应学习令牌，并且适用于图像和视频理解任务。而不是依靠手头设计分割策略来获得视觉令牌并处理大量密集采样的补丁进行关注，我们的方法学会在视觉数据中挖掘重要令牌。这导致有效且有效地找到了一些重要的视觉令牌，并且可以在这种令牌之间进行成像，在这些令牌之间，在更长的视频的时间范围内或图像中的空间内容。我们的实验表现出对图像和视频识别任务的几个具有挑战性的基准的强烈表现。重要的是，由于我们的令牌适应性，我们在显着减少的计算金额下实现竞争结果。

The Arm-Swing Is Discriminative in Video Gait Recognition for Athlete Re-Identification
Authors Yapkan Choi, Yeshwanth Napolean, Jan C. van Gemert
在本文中，我们将运行步态评估为视频人员在长途运行事件中重新识别的属性。我们表明，与交叉相机检索任务中的基于外观的方法相比，运行步态识别实现了竞争性能，并且步态和外观特征彼此互补。对于步态，在使用二进制步态剪影时，在运行期间的臂摇摆不可区分，因为躯干区域中的模糊。我们建议使用人类语义解析来创建躯干被遗漏的部分步态剪影。储存躯干通过允许臂摆动在正面和倾斜观察角度更明显的情况下，提高了识别结果，这提供了手臂摆动的暗示稍微是个人的。与使用全身剪影相比，实验在CampusRun上增加了3.2地图，并在Casia B的正面和后视图中提高了4.8的准确性。

Neural Marching Cubes
Authors Zhiqin Chen, Hao Zhang
我们介绍了神经行进立方体NMC，一种数据驱动方法，用于从离散的隐式场中提取三角网格。古典MC由孤立的粗曲面模板定义为单独的立方体。虽然提出了更精致的曲面，但在确定每个立方体中的顶点位置和本地网状拓扑时，它们都制作了启发式假设，例如TriLineARITY。原则上，这些方法中没有一个可以重建几何特征，这些功能揭示了附近的多维数据集之间的一致性或依赖性，因为这种信息未占用，导致真正隐式隐式场的差估计。为了解决这些挑战，我们通过设计在保留几何特征的曲面细分模板中，从深度学习的角度来看，从深度学习的角度来看，并从训练网格学习顶点位置和网状拓扑，以解释附近多维数据集的上下文信息。我们开发了每个立方体参数化的紧凑型参数化以表示输出三角形网格，同时与神经处理兼容，从而可以采用简单的3D卷积网络来训练。我们展示适用于我们设计的每个立方体的所有拓扑案例都可以使用我们的代表轻易导出，并且通过以下几个设计指南，也可以自然有效地获得所得到的曲面。此外，我们的网络了解具有有限的接收领域的本地功能，因此它概括为新的形状和新数据集。我们通过对所有众所周知的MC变体进行定量和定性比较来评估我们的神经MC方法。特别是，我们展示了我们网络恢复了边缘和角落的尖锐功能的能力，是MC及其变体的长期问题。我们的网络还比以前的方法更准确地重建本地网状拓扑。

Applying VertexShuffle Toward 360-Degree Video Super-Resolution on Focused-Icosahedral-Mesh
Authors Na Li, Yao Liu
随着360度图像视频，增强现实AR和虚拟现实VR的新兴，对分析和处理球面信号的需求得到了巨大的增加。然而，在从球面信号投影的平面信号上支付了大量的努力，这导致一些问题，例如，浪费像素，失真。球形CNN的最近进步已经打开了直接分析球面信号的可能性。然而，他们注意完整的网格，这使得由于极大的带宽要求，处理现实世界应用中的情况不可行。为了解决与360度视频流和节省计算相关的带宽浪费问题，我们利用聚焦的ICOSAHEDRAL网格来表示一个小区域并构造矩阵以将球面内容旋转到聚焦网格区域。与UGSCNN中引入的原始Meshconv转置操作相比，我们还提出了一种新型的顶点动手操作，可以显着提高性能和效率。我们进一步应用于超分辨率模型的提出方法，这是第一个提出的球形超分辨率模型，该模型直接在360度数据的球形像素的网状表示上操作。为了评估我们的模型，我们还收集一组高分辨率360度视频来生成球形图像数据集。我们的实验表明，与使用简单的Meshconv转置操作的基线球面超分辨率模型相比，我们所提出的球形超分辨率模型在性能和推理时间方面实现了显着的好处。总之，我们的模型在360度输入上实现了大量的超级分辨率性能，平均实现了32.79dB的PSNR，当网格上的超级固定16倍顶点时，平均达到平均。

VIMPAC: Video Pre-Training via Masked Token Prediction and Contrastive Learning
Authors Hao Tan, Jie Lei, Thomas Wolf, Mohit Bansal
视频理解依赖于认识到全局内容和建模其内部连接，例如，因果关系，运动和时空时间对应。要了解这些交互，我们应用一个掩模，然后在通过VQ VAE生成的离散视频令牌上预测预训练任务。与文本令牌更独立的语言不同，邻近的视频令牌通常具有很强的相关性，例如，连续的视频帧通常看起来非常相似，因此均匀掩蔽单个令牌将使任务过于微不足道以学习有用的表示。要处理这个问题，我们提出了一个块明智的掩蔽策略，在那里我们在空间和时间域中掩盖了邻近的视频令牌。我们还通过预测从同一视频采样视频剪辑是通过预测视频剪辑是否从相同的视频采样来进一步捕获全局内容的增强无变对比度学习方法。我们预先培训我们的模型对未婚的视频，并显示我们的预训练模型可以在若干视频理解数据集中达到最先进的结果，SSV2，Diving48。最后，我们提供了对模型可扩展性和预训练方法设计的详细分析。代码已发布

Reliability and Validity of Image-Based and Self-Reported Skin Phenotype Metrics
Authors John J. Howard, Yevgeniy B. Sirotin, Jerry L. Tipton, Arun R. Vemury
随着采用面部识别系统的增加，重要的是确保跨人口统计群体的足够性能。最近，在探索性能差异时，已经提出了诸如皮肤音调的表型，例如传统比赛类别的优越替代品。但是，关于如何更广泛地在生物识别性能或AI评估中适当地测量肤色的共识。在这项研究中，我们探讨了使用设计用于测量人体皮肤的设备收集的图像和地面真理皮肤读取的面部区域亮度措施FALMS之间的关系。来自同一个人的不同图像估计的FALMS相对于地面真相粉的不同形象变化。这种变化仅通过对采集相机，背景和环境的更大控制来减少。接下来，我们将地面真相粉碎至Fitzpatrick皮肤类型使用标准，亲自，医学调查和表现出FST对皮肤色调的不太令人难以理解。最后，我们展示了对FALM的噪音有多估计导致对人口差异的解释因素的错误导致错误。这些结果表明，生物识别性能评估的肤色测量必须来自客观，特征和控制来源。此外，尽管这是目前实践的方法，但估计来自不受控制的图像的FST类别和Falmm，并不能提供适当的肤色测量。

Can poachers find animals from public camera trap images?
Authors Sara Beery, Elizabeth Bondi
为了保护含有敏感，高目标物种的相机陷阱数据的位置，许多生态学家在发布数据时随机地对相机的纬度和经度进行了随机。例如，它们可以在其网络中的每个相机的真正相机位置的1km半径内发布随机位置。在本文中，我们调查了Geo混淆维护摄像机陷阱位置隐私的稳健性，并通过案例研究表明，一些简单，直观的启发式和公开可用的卫星栅格可用于减少87的可能包含相机的区域假设在1KM内随机混淆，表明Geo混淆可能比以前认为的效果较低。

Multi-VAE: Learning Disentangled View-common and View-peculiar Visual Representations for Multi-view Clustering
Authors Jie Xu, Yazhou Ren, Huayi Tang, Xiaorong Pu, Xiaofeng Zhu, Ming Zeng, Lifang He
多视图聚类，长期站立和重要的研究问题，重点介绍从不同视野中采矿的互补信息。然而，现有的工作通常融合了多个视图表示或在共同的特征空间中处理群集，这可能导致其纠缠，特别是对于视觉表示。为了解决这个问题，我们通过学习解除吊牌的视觉表示，提出了一种新的基于VAE的多视图聚类框架多VAE。具体地，我们在生成模型中定义了一个视图共同变量和多视图特殊变量。在视图之前的常见变量obeys大约是离散的gumbel softmax分布，引入了提取多个视图的公共集群因子。同时，视图之前的特殊变量遵循连续高斯分布，其用于表示每个视图的特殊视觉因素。通过控制互信能力来解开视图公共和观看特殊表示，可以分离多个视图的连续视觉信息，从而可以有效地开采它们的公共离散集群信息。实验结果表明，与现有技术的状态相比，多维vae享有脱屑和可解释的视觉表现，同时获得优异的聚类性能。

Temporal Early Exits for Efficient Video Object Detection
Authors Amin Sabet, Jonathon Hare, Bashir Al Hashimi, Geoff V. Merrett
根据资源约束，将基于图像的对象检测器传输到视频域保持挑战。以前的努力利用光学流动以允许传播的不变特征，然而，当使用来自监视等应用的慢慢改变场景时，开销是相当大的。在本文中，我们提出了暂时的早期退出以降低每帧视频对象检测的计算复杂性。具有低计算开销的多个时间早期出口模块插入骨干网络的早期层，以识别连续帧之间的语义差异。只有在识别为上次帧的语义变化时，否则才需要完全计算，否则，重复使用先前帧的检测结果。 CDNET的实验表明，与现有方法相比，我们的方法明显降低了每帧视频对象检测的计算复杂性和每帧视频对象检测的比较，其在地图中可接受的2.2中的2.2。

TNT: Text-Conditioned Network with Transductive Inference for Few-Shot Video Classification
Authors Andr s Villa, Juan Manuel Perez Rua, Vladimir Araujo, Juan Carlos Niebles, Victor Escorcia, Alvaro Soto
最近，很少拍摄的学习得到了越来越兴趣。现有的努力一直专注于图像分类，很少有人尝试致力于较少的射击视频分类问题。这几次尝试旨在有效利用视频中的时间维度，以便在低数据制度中学习。但是，它们在很大程度上忽略了视频的一个关键特征，这对于很少的射击识别来说至关重要，即视频通常伴随着丰富的文本描述。在本文中，我们第一次提出利用这些人提供文本描述作为培训几次拍摄视频分类模型时的特权信息。具体来说，我们制定了基于文本的任务调节器，以使视频功能调整到几个镜头学习任务。我们的模型遵循转换设置，其中查询样本和支持文本描述可用于更新支持集类原型，以进一步提高模型的任务适应能力。我们的模型在很少拍摄视频动作分类中获得了四个具有挑战性的基准测试的最新性能。

3D Shape Registration Using Spectral Graph Embedding and Probabilistic Matching
Authors Avinash Sharma, Radu Horaud, Diana Mateus
我们解决了3D形状注册的问题，并提出了一种基于光谱图理论和概率匹配的新技术。 3D形状分析的任务涉及跟踪，识别，注册等。在单个框架中分析3D数据仍然是考虑用不同采集设备收集的数据的大可变性的具有挑战性的任务。 3D形状注册是一个如此有挑战性的形状分析任务。本章的主要贡献是通过将光谱图与拉普拉斯嵌入匹配匹配来将光谱图匹配方法扩展到非常大的图表。由于图形的嵌入式表示通过维度降低获得，因此我们声称现有的基于光谱的方法不容易适用。我们讨论了对精确和不精确的图形同构问题的解决方案，并调查组合图拉普拉斯的主要光谱特性我们提供了对通勤时间嵌入的新颖分析，使我们能够在图表的PCA方面解释后者，以及选择相关嵌入式度量空间的适当维度，我们推导出一个通勤时间嵌入的单元超球标准化，允许我们使用不同的采样注册两个形状，我们提出了一种新颖的方法来查找使用EIGENSINGE的特征值特征序列命令和特征向量标志。使用EIGENSIGNATE直方图，其不变于等距形状变形，并且在光谱图匹配框架中很好地适合，并且我们使用期望最大化点登记算法呈现概率形状匹配配方，该标志配准算法在对准的对齐和向顶点分配找到顶点之间交替。

Automatic Plant Cover Estimation with CNNs Automatic Plant Cover Estimation with Convolutional Neural Networks
Authors Matthias K rschens, Paul Bodesheim, Christine R mermann, Solveig Franziska Bucher, Mirco Migliavacca, Josephine Ulrich, Joachim Denzler
监测植物对环境变化的反应对于植物生物多样性研究至关重要。然而，这目前仍然是由该领域的植物学家手动手动完成。这项工作非常费力，并且所获得的数据是估计估计工厂覆盖的标准化方法，通常是主观的并且具有粗略的时间分辨率。为了解决这些警告，我们研究了使用卷积神经网络CNNS的方法，以自动提取来自图像的相关数据，专注于9种草本植物的植物群落组成和物种覆盖范围。为此，我们调查了几种标准的CNN架构和不同的预先预防方法。我们发现，我们在使用自定义CNN的较高图像分辨率下擅长先前的方法，使用自定义CNN具有5.16的平均绝对误差。除了这些调查外，还基于植物覆盖图像的时间方面进行误差分析。该分析深入了解自动方法的问题，如遮挡和可能因时间变化引起的错误分类。

OadTR: Online Action Detection with Transformers
Authors Xiang Wang, Shiwei Zhang, Zhiwu Qing, Yuanjie Shao, Zhengrong Zuo, Changxin Gao, Nong Sang
最近的在线动作检测方法倾向于施加经常性神经网络RNN以捕获远程时间结构。然而，RNN遭受不行性和梯度消失，因此很难得到优化。在本文中，我们提出了一种基于名为OADTR的变换器的新编码器解码器框架来解决这些问题。附带任务令牌的编码器旨在捕捉历史观察之间的关系和全局相互作用。解码器通过聚合预期的未来剪辑表示来提取辅助信息。因此，OADTR可以通过编码历史信息并同时预测未来的上下文来识别当前的动作。我们在三个具有挑战性的数据集HDD，TVSERIES和THUMOS14上广泛评估了所提出的OADTR。实验结果表明，OADTR比基于RNN的方法更高的训练和推广速度，并且在地图和MCAP方面显着优于现有技术的状态。代码可用

FP-Age: Leveraging Face Parsing Attention for Facial Age Estimation in the Wild
Authors Yiming Lin, Jie Shen, Yujiang Wang, Maja Pantic
基于图像的年龄估计旨在预测来自面部图像的人员年龄。它用于各种现实世界应用。尽管结束了深度模型的年龄估计对基准数据集的令人印象深刻的成果，但由于头部姿势，面部表情和闭塞症引起的挑战，它们在野外的性能仍然留下了很多因素的改善。为了解决这个问题，我们提出了一种简单但有效的方法，将面部语义明确地将面部语义纳入年龄估计，因此该模型将学会从未对齐的面部图像中正确专注于最具信息丰富的面部部件，而不管头部姿势和非刚性变形如何。为此，我们设计了一个基于面的基于脸部解析的网络，以学习不同尺度的语义信息和新的面部解析注意力模块，以利用这些语义特征来实现年龄估计。为了评估我们在狂野数据中的方法，我们还介绍了一个新的挑战大规模基准，称为IMDB清洁。使用约束群集方法，通过SEMI自动清洁Noisy IMDB Wiki数据集来创建此数据集。通过对IMDB的全面实验，在IMDB干净和其他基准数据集下，在数据集中的跨数据集和跨数据集评估协议下，我们表明我们的方法始终如一地优于所有现有的年龄估计方法，并实现了最新的最新性能。据我们所知，我们的工作提出了利用面临的第一次尝试，以实现语义意识年龄估计，这可能会鼓励其他高级面部分析任务。

Classification of Documents Extracted from Images with Optical Character Recognition Methods
Authors Omer Aydin
在过去十年中，机器学习方法给了我们无人驾驶汽车，语音识别，有效的网络搜索，以及更好地了解人类基因组。机器学习今天非常常见，它每天使用数十次，可能在不知不觉中使用。试图教导机器一些过程或某些情况可以使它们预测人类脑难以预测的一些结果。这些方法也有助于我们做一些在短时间内与人类活动发生的操作。由于这些原因，机器学习今天如此重要。在这项研究中，组合了两种不同的机器学习方法。为了解决现实世界问题，稿件文档首先转移到计算机，然后分类。我们使用了三种基本方法来实现整个过程。手写或印刷文件已被扫描仪或数码相机数字化。这些文档已经处理了两个不同的光学字符识别OCR操作。在该生成的文本之后通过使用Naive Bayes算法进行分类。所有项目都在Windows操作系统上的Microsoft Visual Studio 12平台中编程。 C编程语言用于研究的所有部分。此外，使用了一些准备的代码和DLL。

SODA10M: Towards Large-Scale Object Detection Benchmark for Autonomous Driving
Authors Jianhua Han, Xiwen Liang, Hang Xu, Kai Chen, Lanqing Hong, Chaoqiang Ye, Wei Zhang, Zhenguo Li, Chunjing Xu, Xiaodan Liang
旨在促进现实世界，不断发展和可扩展的自主驾驶系统，我们展示了一个大规模的基准，用于通过从原始数据学习来标准化不同自我监督和半监督方法的评估，这是迄今为止的第一个和最大的基准。现有的自主驱动系统严重依赖于完美的视觉感知模型，例如，使用广泛的注释数据训练训练，以确保安全性。然而，精心标记所有情景和环境的实例是不现实的，例如，夜晚，极端天气，在部署强大的自主驱动系统时的城市。最近自我监督和半监督学习的强大进步的动机，希望通过协作利用大规模未标记的数据和少数标记数据来学习强大的检测模型。现有数据集E.G.，KITI，Waymo只提供少量数据或涵盖具有完整注释的有限域，阻碍了大规模预训练模型的探索。在这里，我们释放了一个名为SODA10M的自动驾驶的大规模对象检测基准，其中包含1000万未标记的图像和标有6个代表对象类别的20K图像。为了提高多样性，在不同天气条件，时期和位置场景下的32个不同城市内每帧每帧每帧收集每十秒钟的图像。我们提供广泛的实验和深入分析现有的艺术检测模型，流行的自我监督和半监督方法，以及如何培养未来模型的一些见解。数据和更多最新信息已发布

Distilling effective supervision for robust medical image segmentation with noisy labels
Authors Jialin Shi, Ji Wu
尽管在医学图像分割任务中的深度学习方法成功，但人类水平的性能依赖于具有高质量注释的大规模培训数据，这是昂贵且耗时的收集。事实是，具有标签噪声的低质量注释，从而导致学习模型的次优性能。具有嘈杂标签的分割学习的两个突出方向包括像素明智的噪声稳健训练和图像级噪声稳健训练。在这项工作中，我们提出了一种新颖的框架来通过从像素和图像级别蒸馏有效的监督信息来解决与嘈杂标签进行分割。特别地，我们明确估计每个像素作为像素明智噪声估计的不确定性，并通过使用原始标签和伪标签来提出像素明智的鲁棒学习。此外，我们提出了一种图像级稳健的学习方法，以适应更多信息作为对像素级别学习的补充。我们对模拟和真实世界嘈杂的数据集进行了广泛的实验。结果表明，与噪声标签的医学图像分割的技术基础相比，我们的方法的有利性能。

Obstacle Detection for BVLOS Drones
Authors Jan Moros Esteban
随着欧洲联盟的新规定的引入，超越视野BVLOS无人机的未来将被设置为绽放。这导致了创建了TheBeast项目，旨在创造一个自治安全无人机，重点是这些法规和安全。本技术论文描述了该项目中模块的第一步，围绕检测障碍物旋转，以便在故障安全降落中避免它们。深度学习的动力对象检测方法是我们研究的主题，并保持各种实验，以最大化其性能，例如比较各种数据增强技术或yolov3和yolov5。根据实验的结果，我们得出的结论是，尽管对象检测是解决这个问题的有希望的方法，但在真实寿命应用中潜在使用需要更多的数据。

CLIP2Video: Mastering Video-Text Retrieval via Image CLIP
Authors Han Fang, Pengfei Xiong, Luhui Xu, Yu Chen
我们呈现CLIP2VIDEO网络将图像语言预培训模型转移到视频文本以结束以结束的方式。视频和语言学习领域的主要方法尝试从大型视频文本数据集中蒸馏出蒸馏时蒸馏出时空视频功能和视频和语言之间的多模态交互。与他们不同，我们利用预借鉴的图像语言模型，将其简化为具有图像文本的CO学习的两个阶段框架，并分别增强视频帧和视频文本之间的时间关系，使其能够在比较小的数据集上训练。具体地，基于由对比语言图像预测剪辑模型捕获的空间语义，我们的模型涉及时间差分块来捕获精细时间视频帧的运动，以及时间对准块，以重新对准视频剪辑和短语的令牌并增强多模态相关性。我们进行彻底的消融研究，并在主要文本上实现最新的艺术表现，以对视频和视频进行文本检索基准，包括MSR VTT，MSVD和Vatex上的检索准确性的新记录。

Visual Probing: Cognitive Framework for Explaining Self-Supervised Image Representations
Authors Witold Oleszkiewicz, Dominika Basaj, Igor Sieradzki, Micha G rszczak, Barbara Rychalska, Koryna Lewandowska, Tomasz Trzci ski, Bartosz Zieli ski
最近引入了自我监督的图像代表学习方法，为他们的完全监督竞争对手提供了划分症或卓越的结果，但却努力解释自我监督的方法落后。通过这种观察，我们介绍了一种新的视觉探测框架，用于通过利用先前在自然语言处理中采用的探测任务来解释自我监督模型。探测任务需要了解图像部件之间的语义关系。因此，我们提出了一种系统的方法，以获得视野中的自然语言类似物，例如视觉词，背景和分类。我们的提案基于Marr S的愿景计算理论，涉及纹理，形状和线条等特征。我们在解释自我监督陈述的背景下显示了这些类似物的有效性和适用性。我们的主要研究结果强调，语言和愿景之间的关系可以作为发现机器学习模型如何工作的有效且直观的工具，独立于数据模型。我们的作品开辟了更夸张的研究途径，以更明显和透明的AI。

CataNet: Predicting remaining cataract surgery duration
Authors Andr s Marafioti, Michel Hayoz, Mathias Gallardo, Pablo M rquez Neila, Sebastian Wolf, Martin Zinkernagel, Raphael Sznitman
白内障手术是一种省略手术，在世界各地每年进行超过1000万次。通过如此大的需求，能够有效地组织手术病房和手术室的能力对于在常规临床护理中递送这种疗法至关重要。在这种情况下，估计过程中剩余的手术持续时间RSD是帮助简化患者吞吐量和工作流程的一种方法。为此，我们提出了Catanet，一种对白内障手术的方法，其实时预测RSD与两个有影响力的元素，外科医生的经验，以及手术的当前阶段。我们将Catanet与最先进的RSD估计方法进行比较，表明它即使不考虑阶段和经验，它也表现出它们的表现优于它们。我们调查了这一改进，并表明重要的贡献者是我们将经过的时间整合到Catanet S特征提取器的方式。

One Million Scenes for Autonomous Driving: ONCE Dataset
Authors Jiageng Mao, Minzhe Niu, Chenhan Jiang, Hanxue Liang, Xiaodan Liang, Yamin Li, Chaoqiang Ye, Wei Zhang, Zhenguo Li, Jie Yu, Hang Xu, Chunjing Xu
自动驾驶中的当前感知模型对于大量的注释数据来说，自动驾驶的模型变得臭名昭着，以涵盖看不见的案例并解决长尾问题。另一方面，从未标记的大规模收集数据和逐步自我培训的强大识别模型的学习受到了越来越多的关注，并且可能成为自主驾驶中下一代行业水平强大和强大的感知模型的解决方案。然而，研究界通常遭受这些基本真实世界场景数据的数据不足，这妨碍了对3D感知的全半自我监督方法的未来探索。在本文中，我们介绍了一次自动驾驶场景中的3D对象检测的一百万场景数据集。曾经数据集由100万丽曲场景组成，700万相机图像。数据选自144个驾驶时间，比可用的最大3D自动驾驶数据集长20倍。 Nuscenes和Waymo，它在各种不同的区域，时期和天气条件下收集。为了促进未来关于利用未标记数据的3D检测数据的研究，我们还提供了一种基准，我们在其中重现和评估了一旦数据集的各种自我监督和半监督方法。我们对这些方法进行了广泛的分析，并提供了与与使用数据规模相关的表现的有价值的观察。数据，代码和更多信息可用

Interventional Video Grounding with Dual Contrastive Learning
Authors Guoshun Nan, Rui Qiao, Yao Xiao, Jun Liu, Sicong Leng, Hao Zhang, Wei Lu
视频接地旨在从未定向于未经过时的视频的时刻为给定的文本查询本地化。现有方法更多地关注视觉和语言刺激的对齐，基于各种可能的匹配或回归策略，即p y x。因此，由于数据集的选择偏差，这些模型可能遭受语言和视频特征之间的虚假相关性。 1要揭示模型和数据背后的因果关系，我们首先从因果推断的角度提出了一种新颖的范式，即介入视频接地IVG，它利用后门调整来基于结构化因果模型SCM和DO COMPULUS PY来解除选择偏置。做x。然后，我们提出了一种简单但有效的方法来近似未观察到的混淆，因为它无法直接从数据集中采样。 2同时，我们介绍了一种双重对比学习方法DCL，通过最大化查询和视频剪辑之间的互信息MI来更好地对齐文本和视频，以及在视频中的目标时刻的开始结束帧之间的MI之间的MI来学习更多信息信息视觉表现。三个标准基准测试的实验表明了我们方法的有效性。

Delving into the pixels of adversarial samples
Authors Blerta Lindqvist
尽管对对抗性攻击进行了广泛的研究，但我们不知道对抗性攻击如何影响图像像素。了解图像像素是如何受到对抗性攻击的影响有可能导致我们更好的对抗性防御。由我们发现强烈的攻击不会转移的情况的情况，我们在像素级别进入对手实例以仔细审查对抗性攻击如何影响图像像素值。我们考虑了几种ImageNet架构，Inceptionv3，VGG19和Reset50，以及几个强烈的攻击。我们发现，根据分类器架构，攻击可能对像素级别产生不同的影响。特别地，输入预处理在攻击对像素上的效果中播放先前忽略的作用。基于像素级别检查的见解，我们找到了检测最强劲的当前攻击的新方法。

Pre-training also Transfers Non-Robustness
Authors Jiaming Zhang, Jitao Sang, Qi Yi, Huiwen Dong, Jian Yu
预训练已经启用了许多任务的最佳状态。尽管其对泛化的认可贡献，我们在本研究中观察到，预训练也将非鲁棒性从预训练的模型转移到微调模型中。使用图像分类作为示例，我们首先在各种数据集和网络骨干上进行了实验，以探索影响鲁棒性的因素。在检查微调模型和标准模型之间的差异来进行进一步分析，以发现导致非稳健性转移的原因。最后，我们通过规范目标和源任务之间的差异来介绍一个简单的强大的预训练解决方案。结果验证减轻不稳健性和保存泛化的有效性。

SHREC 2021: Track on Skeleton-based Hand Gesture Recognition in the Wild
Authors Ariel Caputo, Andrea Giachetti, Simone Soso, Deborah Pintani, Andrea D Eusanio, Stefano Pini, Guido Borghi, Alessandro Simoni, Roberto Vezzani, Rita Cucchiara, Andrea Ranieri, Franca Giannini, Katia Lupinetti, Marina Monti, Mehran Maghoumi, Joseph J. LaViola Jr, Minh Quan Le, Hai Dang Nguyen, Minh Triet Tran
手势识别是一种基本工具，可以在混合现实环境，无情的公共信息亭，娱乐系统等各种应用场景中启用新的互动范例，如混合的现实环境，娱乐系统等。现在可以直接从低成本跟踪器UltraLAP和MR耳机，Oculus Quest或通过视频处理软件模块提供的软件估计的软件估计的手势识别手势的识别。 Google MediaPipe。尽管近期骷髅和行动识别的进步，但目前尚不清楚最新的技术能够在真实世界场景中表现出识别广泛的异构手势，因为许多基准都不测试在线识别并使用有限的词典。这激发了SHREC 2021轨道在野外骨架上的骨架手势识别上的提议。对于这场比赛，我们创建了一个具有不同类型和持续时间的异构手势的新型数据集。这些手势必须在在线识别方案中找到内部序列。本文提出了比赛的结果，显示了四个研究小组对挑战性任务的四个研究组提出的技术的表演，与简单的基线方法相比。

Segmentation of cell-level anomalies in electroluminescence images of photovoltaic modules
Authors Urtzi Otamendi, I igo Martinez, Marco Quartulli, Igor G. Olaizola, Elisabeth Viles, Werther Cambarau
在光伏光伏工厂的操作维护中，失败的早期识别是至关重要的，以维持生产率和延长部件的寿命。在所有缺陷中，细胞水平异常会导致严重的失败，并且可以长期影响围绕光伏模块。这些细缺陷通常具有高空间分辨率电致发光EL成像。获取此类图像的难度限制了数据的可用性。对于这项工作，已使用多个数据资源和增强技术来超越此限制。现有技术的最新状态从单个光伏电池图像中提取几乎没有低水平的信息，并且它们的性能由可用的训练数据调节。在本文中，我们提出了一端以通过EL图像从整个光伏模块中检测，定位和区分细胞水平异常的结束。所提出的模块化管道结合了三种深度学习技术1.对象检测修改了更快的RNN，2。图像分类效率，3.弱监管的分割AutoEncoder。管道的模块化性质允许将深度学习模型升级到现有技术的进一步改进，并扩展管道朝向新功能。

Multiple Object Tracking with Mixture Density Networks for Trajectory Estimation
Authors Andreu Girbau, Xavier Gir i Nieto, Ignasi Rius, Ferran Marqu s
多个对象跟踪面临多种可能被轨迹信息缓解的挑战。了解物体的后部位置有助于消除歧义和解决诸如闭塞，RE识别和身份切换的情况。在这项工作中，我们表明轨迹估计可以成为跟踪的关键因素，并且存在基于经常性混合密度网络的轨迹估计器，作为可以添加到现有对象跟踪器的通用模块。要提供多个轨迹假设，我们的方法使用波束搜索。此外，依赖于相同的估计轨迹，我们建议在发生闭塞后重建轨道。我们将Traje集成到了最艺术跟踪算法，CenterTrack 63和Tracktor 3的两个状态。它们在Motchallenge 2017年测试集中的各自表演在Mota评分中提升了6.3和0.3点，在IDF1中为1.8和3.1，为CenterTrack Traje配置设置了新的最新技术

Hard hat wearing detection based on head keypoint localization
Authors Bartosz W jcik, Mateusz arski, Kamil Ksi ek, Jaros aw Adam Miszczak, Miros aw Jan Skibniewski
近年来，在基于视觉的施工现场安全系统的背景下，对深度学习方法进行了很多关注，特别是关于个人防护设备。然而，尽管关注了，但仍然没有可靠的方式来建立工人和他们的安全帽之间的关系。为了回答这个问题，在本文中提出了具有简单规则的推理的深度学习，对象检测和头部键盘本地化的组合。在测试中，该解决方案基于不同实例的相对边界框位置超越了先前的方法，以及直接检测安全帽佩戴者和非佩戴者。结果表明，具有人类可解释的规则的系统的新型深度学习方法的结合可以导致解决方案，可以是可靠的，可以在现场监督下成功模仿手册。这项工作是开发完全自主施工现场安全系统的下一步，并表明该领域还有改进的余地。

TCIC: Theme Concepts Learning Cross Language and Vision for Image Captioning
Authors Zhihao Fan, Zhongyu Wei, Siyuan Wang, Ruize Wang, Zejun Li, Haijun Shan, Xuanjing Huang
对图像标题的现有研究通常代表使用具有低级别事实对象和关系的场景图的图像，并且无法捕获高级语义。在本文中，我们提出了一个主题概念扩展图像标题TCIC框架，其包含主题概念来代表高级跨模块语义。在实践中，我们将主题概念模拟为存储器矢量，并提出具有主节点TTN的变压器，以结合那些用于图像标题的矢量。考虑到主题概念可以从两种图像和标题中学到，我们为基于TTN的表示学习提供了两个设置。在视觉侧，TTN被配置为将基于场景图的特征和主题概念作为视觉表示学习的输入。在语言侧，TTN被配置为将标题和主题概念作为文本表示重新构造的输入。两个设置旨在使用相同的基于变压器的解码器生成目标字幕。在培训期间，我们进一步调整从图像和相应标题中学到的主题概念的表示，以强制跨派式学习。与艺术模型的某些状态相比，Coco上的实验结果表明了我们的方法的有效性。

Unsupervised Deep Learning by Injecting Low-Rank and Sparse Priors
Authors Tomoya Sakai
如果通过组合层模块CNN，RNN等，工程师少开采电感偏差，即现有众所周知的规则或先前知识，则何时何时可以从稀疏性诱导的前沿何时设计我们专注于在深度学习中使用稀疏诱导前瞻，鼓励网络以无人监督的方式简明地捕捉高维数据的性质。为了使用非可微分的稀疏性诱导规范作为损耗功能，我们将近端映射插入自动差异化框架中。我们展示了使用低等级和稀疏前沿的背景减法的U净的无监督学习。 U NET可以在没有任何注释的情况下在训练序列中学习移动对象，并成功检测测试序列中的前景对象。

Cross-layer Navigation Convolutional Neural Network for Fine-grained Visual Classification
Authors Chenyu Guo, Jiyang Xie, Kongming Liang, Xian Sun, Zhanyu Ma
细粒度的视觉分类FGVC旨在对同一超级课程中的物体进行分类，例如，鸟类的种类，汽车型号。对于FGVC任务，基本解决方案是从当地区域找到目标的判别细微信息。 TraditionalFGVC型号优先使用精细特征，即，用于识别的高级语义信息，并且很少在地层中使用低电平。但是，事实证明，包含丰富细节信息的低级信息也对提高性能产生影响。因此，在本文中，我们向特征融合提出了跨层导航卷积神经网络。首先，由骨干网络提取的特征映射从高电平顺序地向卷积的长短短期存储器模型中馈送到低电平以执行特征聚合。然后，在特征融合之后使用注意机制来提取空间和信道信息，同时链接高电平语义信息和低电平纹理特征，这可以更好地定位FGVC的识别区域。在实验中，三个常用的FGVC数据集包括Cub 200 2011，Stanford Cars，AndFGVC飞机数据集，用于评估，我们通过将其与其他引用的FGV方法进行比较来证明所提出的方法的优越性，以表明该方法实现优越结果。

Surgical data science for safe cholecystectomy: a protocol for segmentation of hepatocystic anatomy and assessment of the critical view of safety
Authors Pietro Mascagni, Deepak Alapatt, Alain Garcia, Nariaki Okamoto, Armine Vardazaryan, Guido Costamagna, Bernard Dallemagne, Nicolas Padoy
微创图像引导手术严重依赖视力。因此，外科微型视频分析的深度学习模型可以支持视觉任务，例如评估腹腔镜胆囊切除术LC中安全性CV的临界视图，可能导致手术安全性和效率。然而，这种模型的性能，可靠性和再现性深深地依赖于其开发中使用的数据和注释的质量。在这里，我们提出了一种协议，清单和视觉示例，以促进一致的肝细胞解剖学和CVS标准的注释。我们认为分享注释指南可以帮助建立可靠的多中心数据集以评估性能的易于提升性，从而加速了用于外科视频分析的深度学习模型的临床翻译。

Crop-Transform-Paste: Self-Supervised Learning for Visual Tracking
Authors Xin Li, Wenjie Pei, Zikun Zhou, Zhenyu He, Huchuan Lu, Ming Hsuan Yang
虽然基于深度学习的视觉跟踪方法取得了实质性的进展，但这些方案需要大规模和高质量的注释数据，以进行足够的培训。为了消除昂贵和详尽的注释，我们研究了自我监督的学习，以了解视觉跟踪。在这项工作中，我们开发了作物变换粘贴操作，该操作能够通过在跟踪期间模拟各种场景变化来综合足够的训练数据，包括对象和背景的外观变化。由于对象状态在所有合成数据中都是已知的，因此现有的深度跟踪器可以在没有人为注释的情况下以例行方式培训。与典型的自我监督学习方法不同，执行视觉表示学习作为单独的步骤，所提出的自我监督的学习机制可以无缝地集成到任何现有的跟踪框架中以执行训练。广泛的实验表明，我们的方法1在很少的镜头跟踪方案中实现了比监督学习的有利性能2可以处理各种跟踪挑战，如物体变形，遮挡或背景杂波，因为它的设计3可以与监督学习相结合进一步提升在几次拍摄跟踪方案中表现，特别有效。

PIANO: A Parametric Hand Bone Model from Magnetic Resonance Imaging
Authors Yuwei Li, Minye Wu, Yuyao Zhang, Lan Xu, Jingyi Yu
手表建模对于沉浸式VR AR，行动理解或人类医疗是至关重要的。现有的参数模型仅用于手形状，姿势或纹理，而不建模像骨骼等解剖学属性，这对于现实的手工生物力学分析至关重要。在本文中，我们展示了钢琴，来自MRI数据的人类手第一个参数骨模型。我们的钢琴模型在生物学上是正确的，简单的动画，而且可微分，以数据驱动的方式实现更加解剖学上的内部手动式结构，而不是基于外表面的传统手机。此外，我们的钢琴模型可以应用于神经网络层，以实现具有细粒度的语义损失的培训，这开辟了从MRI甚至RGB图像的数据驱动的细粒度骨头解剖学和语义理解的新任务。我们将我们的型号公开提供。

Confidence-Guided Radiology Report Generation
Authors Yixin Wang, Zihao Lin, Jiang Tian, zhongchao shi, Yang Zhang, Jianping Fan, Zhiqiang He
医学成像在临床实践中的诊断和治疗中起着枢转作用。灵感来自自动图像标题中的显着进展，已经提出了用于生成医学图像的放射学报告的各种深度学习DL的架构。然而，模型不确定性即，模型可靠性对报告生成的信心仍然是一个探索问题。在本文中，我们提出了一种新的方法，明确地量化了放射学报告生成任务的视觉不确定性和文本不确定性。这种多模态不确定性可以充分捕获报告水平和句子水平的模型置信度分数，因此它们进一步利用以重量实现更全面的模型优化的损失。我们的实验结果表明，我们提出的模型不确定性表征和估算方法可以为放射学报告生成提供更可靠的置信度分数，我们提出的不确定性加权损失可以实现更全面的模型优化，并导致公共放射学的最先进状态报告数据集。

Knowledge Distillation via Instance-level Sequence Learning
Authors Haoran Zhao, Xin Sun, Junyu Dong, Zihe Dong, Qiong Li
最近，建议蒸馏方法从教师网络提取一般知识以指导学生网络。大多数现有方法通过馈送均匀地从数据采样的随机迷你批次的序列来将知识从教师网络转移到学生。相反，我们争辩说，应使用以有意义的序列订购的样本逐渐引导紧凑的学生网络。因此，它可以通过步骤介绍教师和学生网络之间的特征表示的差距。在这项工作中，我们通过实例级序列学习提供课程学习知识蒸馏框架。它使用早期ENOCH的学生网络作为快照，以创建学生网络的下一个训练阶段的课程。我们对CiFar 10，CiFar 100，SVHN和CICIC 10数据集进行了广泛的实验。与若干国家相比，我们的框架实现了迭代较少的最佳性能。

Affect-driven Engagement Measurement from Videos
Authors Ali Abedi, Shehroz Khan
在教育和干预计划中，人士的参与已被确定为成功计划完成的主要因素。人员参与的自动测量为教师提供了有用的信息，以满足计划目标和个性化计划交付。在本文中，我们在虚拟学习程序中提出了一种用于视频的参与测量的新方法。我们建议使用影响状态，从连续视频帧提取的价值和唤醒的连续值以及用于接合测量的新潜在情感特征向量和行为特征。基于深度学习的时间和传统的基于机器学习的非时间模型，分别培训并验证帧级别和视频级别。除了传统的集中学习之外，我们还在分散的联合学习设置中实现了所提出的方法，并研究模型个性化在接合测量中的效果。我们评估了拟议方法对唯一两个公开的视频订婚测量数据集，DAISEE和EMOTIW的性能，其中包含在线学习计划中的学生视频。我们的实验表明了最先进的最新订婚级别分类精度为63.3，并在DAISED数据集中正确分类了脱离视频，并在EMOTIW数据集中的0.0673的回归平均正误差。我们的消融研究表明，在接合测量中纳入影响状态的有效性。我们根据参与领域的心理学概念来解释从实验结果的调查结果。

Total Generate: Cycle in Cycle Generative Adversarial Networks for Generating Human Faces, Hands, Bodies, and Natural Scenes
Authors Hao Tang, Nicu Sebe
我们在循环生成的对抗网络中提出了一种新颖和统一的周期，用于生成人面，手，机构和自然场景。我们所提出的C2Gan是一种跨模型模型，以交互方式探索输入图像数据和指导数据的联合开发。 C2Gan包含两个不同的发电机，即图像生成发生器和引导生成发生器。两个发生器在结束时相互连接和训练，并明确地形成三个循环子网，即一个图像生成周期和两个引导产生周期。每个循环旨在重建输入域，并同时产生涉及的另一个循环中涉及的有用输出。以这种方式，循环彼此限制隐含地从图像和引导方式提供互补信息，并在整个周期中带来额外的监督梯度，促进整个模型的更强大优化。对于图像转换子特设的四个引导图像的广泛结果表明，所提出的C2ANG与艺术模型的状态相比有效地产生更现实的图像。代码可用

An End-to-End Khmer Optical Character Recognition using Sequence-to-Sequence with Attention
Authors Rina Buoy, Sokchea Kor, Nguonly Taing
本文呈现了用于高棉光学字符识别OCR任务的结束以结束深度卷积经常性神经网络解决方案。所提出的解决方案使用序列来序列SEQ2Seq架构与注意机制。编码器通过剩余卷积块的层和一层门控复发单元GRU提取来自输入文本线图像的视觉特征。该特征在单个上下文向量中编码，并将其发送到解码器的一个隐藏状态，以便一次解码一个字符直到达到句子EOS令牌的特殊端。注意机制允许解码器网络在预测目标字符的同时自适应地选择输入图像的部分。 SEQ2SEQ Khmer OCR网络培训了七个常见的Khmer字体的大量计算机生成的文本线图像。该模型的模型S性能优于通过实现1 VS 3的字符误差率CER在3000图像测试集上为高棉语言表现出Khmer语言的艺术TESERACT OCR引擎状态。

Moving in a 360 World: Synthesizing Panoramic Parallaxes from a Single Panorama
Authors Ching Yu Hsu, Cheng Sun, Hwann Tzong Chen
我们展示了全向神经辐射场Omninerf，这是应用视差的第一种方法使能新的全景观看合成。新型视图综合作品的作品侧重于具有有限视野的透视图像，并且需要在特定条件下捕获足够的图片。相反，omninerf可以为未知的视点生成全景图像，因为单个昼夜互联网作为训练数据。为此，我们建议通过在不同的虚拟相机位置的3D世界和不同的2D全景坐标之间来回突出来增加单个RGB D全景。通过这样做，我们能够优化具有从固定中心的全向视角收集的可见像素的全向神经辐射场，用于估计来自不同的相机位置的新观看角度。因此，所提出的omninerf实现了表现出视差效应的新型全景视图的令人信服的讲话。我们展示了我们对合成和现实世界数据集的每个提案的有效性。

CUDA-GR: Controllable Unsupervised Domain Adaptation for Gaze Redirection
Authors Swati Jindal, Xin Eric Wang
凝视重定向的目的是操纵图像的凝视到所需的方向。然而，在生成感知性合理的图像时，现有方法是不充分的。生成的对策网络的进步表明了产生照片现实图像的优异结果。但是，它们仍然缺乏在不同图像属性上提供更精细控制的能力。为了实现这种微调控制，需要获得可以非常昂贵的训练数据的地面真理注释。在本文中，我们提出了一个叫做CUDA GR的无监督域适配框架，该域学会从标记的源域中解散凝视表示，并将它们传送到未标记的目标域。我们的方法在保留人的外观信息的同时使得对凝视方向进行细粒度。我们表明目标域中的生成图像标签对在知识转移中是有效的，并且可以提高下游任务的性能。基准数据集上的广泛实验表明，该方法在定量和定性评估中可以倾向于最突出的技术技术。

Robust Pooling through the Data Mode
Authors Ayman Mukhaimar, Ruwan Tennakoon, Chow Yin Lai, Reza Hoseinnezhad, AlirezaBab Hadiashar
从点云数据中学习的任务始终挑战，由于数据中的噪声和异常值常见。这种数据不准确可以显着影响最深入学习网络的状态和分类或分段对象的能力。虽然有一些强大的深度学习方法，但它们对于实时应用来说是过于昂贵的。本文提出了一种深入的学习解决方案，包括一种新颖的稳健池层，其大大提高了网络鲁棒性，并且比现有方法的状态更快地执行。所提出的汇集层使用两种方法，RANSAC和直方图查找数据A模式群集，因为群集表示模型。我们将汇集层测试成框架，例如基于点和基于曲线图的神经网络，并且与现有技术方法的鲁棒状态相比，测试显示增强的鲁棒性。

Trainable Class Prototypes for Few-Shot Learning
Authors Jianyi Li, Guizhong Liu
公制学习是一种广泛使用的方法，用于几次拍摄学习，其中原型的质量在算法中发挥着关键作用。在本文中，我们提出了用于距离测量的可训练原型，而不是元培训和任务培训框架内的人工。另外，避免缺点，即集中性的荟萃训练带来的，我们采用了基于自我监督学习的非显着元培训。总的来说，我们通过自我监督学习培训可转移特征提取器的两个阶段培训的几个镜头任务，培训测量标准分类。此外，简单的注意机制用于元培训和任务培训。我们的方法在标准的少量拍摄视觉分类数据集中实现了各种既定少量拍摄任务的最新性能，与可用无人监督的少量学习方法相比，大约20个增加。

Interpretable Face Manipulation Detection via Feature Whitening
Authors Yingying Hua, Daichi Zhang, Pengju Wang, Shiming Ge
为什么我们应该相信对被操纵面的深度神经网络的检测理解的原因对于提高检测模型的公平性，可靠性，隐私和信任来说是重要的。在这项工作中，我们提出了一种可解释的面部操纵检测方法来实现可靠性和准确的推理。该方法可以通过嵌入特征美白模块来使面部操纵检测过程透明。该模块旨在通过功能去相关性和特征约束来美白深网络的内部工作机制。实验结果表明，我们所提出的方法可以在检测准确性和模型解释性之间取得平衡。

Two-Stream Consensus Network: Submission to HACS Challenge 2021 Weakly-Supervised Learning Track
Authors Yuanhao Zhai, Le Wang, David Doermann, Junsong Yuan
本技术报告将我们的解决方案呈现给HACS时间作用本地化挑战2021，弱监督学习轨道。弱监督时间行动定位的目标是在仅在视频级标签中暂时定位和分类对未经监测视频的感兴趣的行动。我们采用两条流达成网络TSCN作为这一挑战中的主要框架。 TSCN由两个流基础模型训练程序和伪基础学习过程组成。基础模型训练鼓励模型基于单模的单个模态预测可靠的预测，基于该模型，RGB或光流量，基于伪基地的融合，又用作训练基础模型的监督。在HACS V1.1.1数据集上，无需微调特征提取I3D模型，我们的方法在验证集中实现22.20且在平均地图方面的测试集上的21.68。我们的解决方案在这一挑战中排名第2，我们希望我们的方法可以作为未来学术研究的基准。

3D Object Detection for Autonomous Driving: A Survey
Authors Rui Qian, Xin Lai, Xirong Li
自主驾驶被认为是最有前途的救济措施之一，避免严重崩溃。为此，3D对象检测用作这种感知系统的核心基础，特别是为了路径规划，运动预测，碰撞等。通常，具有相应的3D点云的立体声或单眼图像已经是3D对象的标准布局检测，其中点云的点云具有准确的深度信息越来越普遍。尽管现有的努力，由于点云的高稀释和不规则的点云，但是在相机视图和Lidar鸟瞰的光点云之间的高稀释和不规则性，对于模态协同，遮挡和长距离的尺度变化，3D对象检测仍然是其初期的初期。尽那次，在3D对象检测中，已经进行了深刻的进展，具有大量的文献来调查来解决这个视觉任务。因此，我们对该领域的最新进展情况进行了全面的审查，涵盖了所有主题，包括传感器，基本面和最近的最新状态的艺术检测方法的利弊。此外，我们在流行的公共数据集中介绍度量并提供定量比较。未来工作的途径将在深入分析调查的作品后明智地确定。最后，我们得出结论本文。

Structured Sparse R-CNN for Direct Scene Graph Generation
Authors Yao Teng, Limin Wang
场景图生成SGG是用它们在图像中的关系中检测实体对。现有的SGG方法经常使用多阶段管道来将该任务分解为对象检测，关系图构造和密集或密集到稀疏关系预测。相反，从SGG的透视图作为直接设置预测，呈现了一种简单，稀疏和统一的关系检测框架，称为结构化稀疏R CNN。我们方法的关键是一组可学习的三联体查询和结构化三联探测器，其可以从训练集中联合优化，以结束到最终方式。具体地，Triplet查询在实体对位置，类别及其关系的前提之前对一般进行编码，并提供对随后的改进的关系检测的初始猜测。三态检测器呈现级联动态头部设计，以逐步细化关系检测结果。此外，为了减轻结构化稀疏R CNN的训练难度，我们提出了一种基于来自暹罗稀疏R CNN的知识蒸馏的轻松和增强的培训策略。我们还提出了适应性聚焦参数和平均Logit方法进行不平衡数据分布。我们对两个基准视觉基因组和开放图像进行实验，结果表明我们的方法实现了最先进的性能。同时，我们在深度消融研究中表现为我们在三重态探测器设计和培训策略中的结构化建模的见解。

ToAlign: Task-oriented Alignment for Unsupervised Domain Adaptation
Authors Guoqiang Wei, Cuiling Lan, Wenjun Zeng, Zhibo Chen
无监督的域自适应分类打算在未标记的目标域上提高该表现。为了减轻域移位的不利影响，许多方法对准特征空间中的源域和目标域。然而，通常作为整体进行一个特征，用于对齐而不明确地使域对齐提供分类任务，导致副最优解。探索了应对更好的适应应对的子功能。在本文中，我们为无监督域适应UDA提出了一个有效的任务面向对齐Toalign。我们研究了跨域应对的功能，并建议通过在分类任务所诱导的先前知识的指导下执行特征分解和对准来使域对齐进行分类。特别地，我们明确地分解了源域中的特征，进入了应该对齐的任务相关的鉴别特征，并且基于分类元知识应该忽略应避免的任务无关的特征。在不同域适应设置下的各种基准的广泛实验结果，例如，办公室，Visda 2017和DomainNet，展示了Toalign的无效，有助于实现最先进的性能。

DiGS : Divergence guided shape implicit neural representation for unoriented point clouds
Authors Yizhak Ben Shabat, Chamin Hewa Koneputugodage, Stephen Gould
最近显示神经形状表示在形状分析和重建任务中有效。现有的神经网络方法需要点坐标和相应的正常向量来学习形状的隐式级别组。通常未提供正常载体作为原始数据，因此，需要近似和重新定位作为预处理阶段，两者都可以引入噪声。在本文中，我们提出了一种不同的引导形状表示学习方法，其不需要正常向量作为输入。我们展示了对距离功能的分歧的软限制融合了光滑的解决方案，使得可靠地是渐变的渐变，以匹配每个点的未知正常，在某些情况下甚至比使用地面真理正常向量的方法更好。另外，我们向正弦形状表示网络介绍一种新的几何初始化方法，其进一步提高了所需解决方案的收敛。我们评估了我们对表面重建任务的效果，并与其他不知值的方法和对阵列性能相比，与面向的方法相比，表现出现有技术。

Large-scale image segmentation based on distributed clustering algorithms
Authors Ran Lu, Aleksandar Zlateski, H. Sebastian Seung
三维图像分割的许多方法基于Supervexets的分层聚类到图像区域。在这里，我们描述了一种能够处理巨大数量的超值的分布式算法。该算法递归工作，该区域被分成块，该块由多个工人独立处理。在每轮递归程序，所有尺寸中的块尺寸都加倍，直到单个块包含整个图像。最终结果可从属于块方案，与整个图像未被分成块进行处理相同。这是不动的，因为一些统计属性评分了一对相邻区域。接口的亲和力的平均值或中位数，界面可以在任意多个块上延伸。诀窍是延迟触摸块边界的区域的合并决策，并且在区域完全包含在块内后，只在后面完成它们。我们通过聚类具有超过1.5万亿边缘的亲和图来展示算法，从350亿超源源自3D电子显微镜脑图像。

Adversarial Manifold Matching via Deep Metric Learning for Generative Modeling
Authors Mengyu Dai, Haibin Hang
我们提出了一种用于生成模型的歧管匹配方法，包括分配发生器或数据发生器和度量发生器。在我们的框架中，我们将真实数据设置为嵌入在高维欧几里德空间中的一些歧管。分配发生器旨在产生遵循围绕真实数据歧管凝结的一些分布的样本。通过使用它们的几何形状描述符匹配两组点，例如质心和P直径，具有学习距离度量，度量生成器利用真实数据和生成的样本来学习接近某些内在测地距离的距离度量真实数据歧管。所产生的距离度量进一步用于歧管匹配。在培训过程中同时学习两个网络。我们在无条件图像生成任务中应用了对无监督和监督学习任务的方法，该方法获得了超级分辨率任务中现有的生成模型比较的竞争结果，我们在基于感知模型中纳入了框架，并通过更多地制作样本来提高视觉素质自然纹理。理论分析和实际数据实验都保证了所提出的框架的可行性和有效性。

Learning to Track Object Position through Occlusion
Authors Satyaki Chakraborty, Martial Hebert
闭塞是对象探测器和跟踪器遇到的最重要的挑战之一。虽然对象检测和跟踪在过去接受了很多关注的情况下，此域中的大多数现有方法不会在被遮挡时瞄准检测或跟踪对象。然而，能够通过遮挡来检测或跟踪感兴趣的对象是不同自治任务的长期挑战。使用具有显式遮挡建模体验漂移的视觉对象跟踪器的传统方法漂移，并对数据进行几个根本的假设。我们建议通过通过在基于区域的视频对象探测器的成功基础上构建的检测方法来解决这一点。我们的视频级对象探测器在其核心中使用新的复发计算单元，即使在遮挡下也能够长期传播物体功能。最后，我们将我们的方法与现有的艺术视频对象探测器进行了比较，并表明我们的方法在从互联网收集的家具装配视频的数据集上实现了卓越的结果，其中小物体像螺钉，螺母和螺栓一样，通常会被遮挡相机视点。

Mobile Sensing for Multipurpose Applications in Transportation
Authors Armstrong Aboah, Michael Boeding, Yaw Adu Gyamfi
常规和一致的数据收集需要满足当代运输问题。当使用复杂的机器来收集数据时，数据收集的成本会增加。由于这一制约，国家交通部门努力收集一致的数据，以及时分析和解决运输问题。集成到智能手机的传感器的最新进步已经导致更实惠的数据收集方法。本研究的主要目标是开发和实施数据集合的智能手机应用程序。当前设计的应用程序由三个主要模块组成前端图形用户接口GUI，传感器模块和后端模块。虽然前端用户界面可以与应用程序进行交互，但传感器模块在应用程序使用时收集相关数据，例如视频和加速度计读数。另一方面，后端由Firebase Storage组成，用于存储聚集的

Neighborhood Contrastive Learning for Novel Class Discovery
Authors Zhun Zhong, Enrico Fini, Subhankar Roy, Zhiming Luo, Elisa Ricci, Nicu Sebe
在本文中，我们地址新颖的类发现NCD，在一组未标记的样本中揭开新类的任务给定具有已知类的标记的数据集。我们利用NCD的特殊性来建立一个名为Condownhood对比学习NCL的新框架，了解对聚类性能很重要的歧视表现。我们的贡献是双重的。首先，我们发现在标记的SET上培训的特征提取器生成一个表示，其中通用查询示例及其邻居可能分享相同的类。我们利用这种观察来检索和聚合具有对比学习的伪正对，从而鼓励模型来了解更多的歧视性表示。其次，我们注意到大多数情况都很容易受网络歧视，导致对比损失较少。为了克服这个问题，我们建议通过在特征空间中混合标记和未标记的样本来产生硬质良性。我们通过实验证明这两种成分显着促进聚类性能，并通过大的余量例如通过大的余量来引导我们的模型以优于最高的方法。，在想象中的Cifar 100和8上的聚类精度13。

Automated Deepfake Detection
Authors Ping Liu
在本文中，我们建议利用自动化机器学习来自动搜索架构进行深度检测。与以往的作品不同，我们的方法从深度学习的优越能力中受益，同时将我们从手动网络设计过程中的高劳动力成本中解脱出来。实验证明，我们提出的方法不仅优于以前的非深度学习方法，而且与先前的深度学习方法相比，实现了可比或甚至更好的预测准确性。为了改善我们的方法的一般性，特别是当通过不同方法操纵训练数据和测试数据时，我们提出了一种在我们的网络学习过程中的多任务策略，使其在给定示例中估计潜在的操纵区域以及预测样品是否是真实的。使用类似策略的先前作品比较，我们的方法在现有知识上取决于更少的知识，例如无需了解使用哪种操作方法以及是否已经使用了该方法。两个基准数据集的广泛实验结果证明了我们提出的方法对DeepFake检测的有效性。

Plant Disease Detection Using Image Processing and Machine Learning
Authors Pranesh Kulkarni, Atharva Karwande, Tejas Kolhe, Soham Kamble, Akshay Joshi, Medha Wyawahare
农业实践中的一个重要和繁琐的任务之一是检测作物疾病。它需要巨大的时间和熟练的劳动力。本文提出了一种智能有效的方法，用于检测使用计算机视觉和机器学习技术的作物疾病。所提出的系统能够检测有20种常见植物的20个不同疾病，具有93个精度。

NeuS: Learning Neural Implicit Surfaces by Volume Rendering for Multi-view Reconstruction
Authors Peng Wang, Lingjie Liu, Yuan Liu, Christian Theobalt, Taku Komura, Wenping Wang
我们介绍了一种新的神经表面重建方法，称为Neus，用于重建具有高保真的对象和场景，从2D图像输入。现有的神经表面重建方法，如DVR和IDR，需要前景掩模作为监督，容易被捕获在局部最小值中，因此与具有严重自闭锁或薄结构的物体的重建斗争。同时，新型观测合成的最近神经方法，例如Nerf及其变体，使用体积渲染来产生具有优化的稳健性的神经场景表示，即使对于高度复杂的物体。然而，从该学习的内隐式表示提取高质量的表面是困难的，因为表示在表示中没有足够的表面约束。在Neus，我们建议将表面代表为符号距离功能SDF的零级别集，并开发一种新的卷渲染方法来训练神经SDF表示。我们观察到传统的体积渲染方法导致固有的几何误差I.。表面重建的偏置，因此提出了一种在第一阶的第一阶的偏置的新配方，因此即使没有掩模监督，也导致更精确的表面重建。 DTU数据集的实验和BlendedMVS数据集显示，Neus优于高质量表面重建中的技术状态，特别是对于具有复杂结构和自动遮挡的物体和场景。

Quality-Aware Memory Network for Interactive Volumetric Image Segmentation
Authors Tianfei Zhou, Liulei Li, Gustav Bredell, Jianwu Li, Ender Konukoglu
尽管最近的自动医学图像分割技术进展，但全自动结果通常无法满足临床用途，通常需要进一步改进。在这项工作中，我们提出了一种用于3D医学图像的交互式分割的质量意识的内存网络。通过用户指导提供任意切片，首先使用交互网络来获得初始2D分段。质量意识存储器网络随后在整个卷上双向传播初始分割估计。基于其他切片上的附加用户指导的后续改进可以以相同的方式整合。为了进一步促进交互式分割，引入了质量评估模块，以基于每个切片的当前分割质量来建议下一个切片到段。所提出的网络具有两个吸引人的特征1，内存增强网络提供了快速编码过去分段信息的能力，这将被检索到其他切片2的分割2，质量评估模块使模型能够直接估计分割预测的质量，这允许一个主动学习范例，其中用户优先标记用于多轮细化的最低质量切片。所提出的网络导致强大的交互式分段引擎，其可以概括为各种类型的用户注释，例如，涂鸦，框。各种医学数据集的实验结果表明了我们与现有技术相比的方法的优越性。

Solution for Large-scale Long-tailed Recognition with Noisy Labels
Authors Yuqiao Xian, Jia Xin Zhuang, Fufu Yu
这是CVPR 2021 aliproducts挑战的技术报告。 aliproducts挑战是一个竞争，提出了研究世俗电子商务公司遇到的大规模和细粒度的商品形象识别问题。大规模的产品识别同时满足嘈杂注释的挑战，不平衡的长尾数据分布和细粒度分类。在我们的解决方案中，我们采用了CNN和变压器的艺术模型架构，包括resnest，高效网络和deit。我们发现迭代数据清洁，分类器权重归一化，高分辨率FineTuning，以及测试时间增强是通过嘈杂和不平衡数据集来提高培训性能的关键组件。最后，我们在Leasemble模型中获得了6.4365平均级别错误率。

Tag, Copy or Predict: A Unified Weakly-Supervised Learning Framework for Visual Information Extraction using Sequences
Authors Jiapeng Wang, Tianwei Wang, Guozhi Tang, Lianwen Jin, Weihong Ma, Kai Ding, Yichao Huang
近年来，视觉信息提取VIE引起了越来越关注。现有方法通常首先将子字符识别OCR结果分为纯文本，然后利用令牌级实体注释作为监督训练序列标记模型。但是，它消耗了很大的注释成本，可能会暴露于标签混淆，并且OCR误差也将显着影响最终表现。在本文中，我们提出了一个统一弱监督的学习框架，称为TCPN标签，复制或预测网络，它引入了一个高效的编码器，以同时模拟2D OCR结果2中的语义和布局信息2，只有弱监督的培训策略，只能使用关键信息作为监控和3个包含两个推理模式的灵活和可切换解码器，一个复制或预测模式是通过在每个时间步骤中复制来自输入或预测一个的令牌来输出不同类别的密钥信息序列，而其他标签模式是直接标记在单个前向通过中的输入序列。我们的方法在几个公共基准上显示了新的最新性能，这完全证明了其有效性。

Exploring Semantic Relationships for Unpaired Image Captioning
Authors Fenglin Liu, Meng Gao, Tianhao Zhang, Yuexian Zou
最近，图像标题对学术和工业世界引起了极大的兴趣。大多数现有系统都是基于由图像句对组成的大规模数据集，然而，这是耗时的构造。此外，即使对于最先进的图像标题系统，甚至难以实现深层图像的理解。在这项工作中，我们通过弥合具有高电平语义信息的愿景和语言域来实现未配对的图像标题。动机源自：可以从图像和描述中提取具有相同模态的语义概念。为了进一步提高模型产生的标题的质量，我们提出了语义关系资源管理器，该资源管理器探讨了语义概念之间的关系，以便更好地理解图像。对MSCOCO数据集的广泛实验显示，我们可以在没有配对数据集的情况下生成所需的标题。此外，所提出的方法可以在配对的设置下提高五个强大的基线，其中苹果酒评分的最显着改善达到8，表明它是有效的并且概括到各种模型。

CAMERAS: Enhanced Resolution And Sanity preserving Class Activation Mapping for image saliency
Authors Mohammad A. A. K. Jalwana, Naveed Akhtar, Mohammed Bennamoun, Ajmal Mian
Backpropagation图像显着旨在通过估计输入中的各个像素的模型中心来解释模型预测。然而，网络中的早期层的类不敏感性仅允许具有更深层的低分辨率激活图的显着计算，从而导致图像显着性受损。修复这可能导致理智失败。我们提出了Cameras，一种计算高保真反向效柄显着性图的技术，而无需任何外部前瞻和保留地图理智。我们的方法系统地执行激活映射和反向衰减的多尺度累积和融合，以计算精确的显着图。从准确的图像显着性与不同模型的输入特征的相对重要性的关节，以及在视觉上类似对象的模型感知之间的精确辨别，我们的高分辨率映射为黑匣子深度视觉模型提供了多种新颖的洞察力，这些模型在纸上呈现。我们还通过将它们的攻击信号集中在由地图所识别的精确区域，通过大大降低攻击信号的规范来展示我们的显着性图在对抗性设置中的效用。我们的方法还激发了新的评估指标和理智检查这一发展的研究方向。代码可在此处提供

More than Encoder: Introducing Transformer Decoder to Upsample
Authors Yijiang Li, Wentian Cai, Ying Gao, Xiping Hu
一般分割模型下映射图像，然后上置恢复像素级预测的分辨率。在这种模式中，upsample技术在维护信息以获得更好的性能方面至关重要。在本文中，我们提出了一种新的上表方法，关注AU，可以作为一般上置方法，并被纳入具有横向连接的任何分段模型。 AU利用像素级别注意模型长距离依赖和全局信息，以便更好地重建。它由注意解码器AD和BILINEAR upsample作为残留连接，以补充upspled特征。广告采用来自变压器的解码器的想法，该upsamples在缔约路径上的本地和详细信息上的功能。此外，考虑到像素级别的广泛内存和计算成本，我们进一步建议使用窗口关注方案来限制本地窗口而不是全局范围内的关注计算。合并窗口关注，我们将我们的解码器称为窗口注意解码器WAD和我们的上置方法作为窗口关注的窗口。我们在经典U净结构上测试了横向连接的方法，以提供来自剪裁路径的信息，并在Synapse上实现现有技术的状态80.30 DSC和23.12 HD和MSD Brain 74.75 DSC数据集。

FloorPP-Net: Reconstructing Floor Plans using Point Pillars for Scan-to-BIM
Authors Yijie Wu, Fan Xue
本文介绍了一个基于深度学习的点云处理方法，名为FallyPP网的扫描到BIM构建信息模型的任务。 FloorPP网首先将建筑物故事的输入点云转换为点柱PP，然后预测拐角和边缘以输出平面图。完全，FloorPP网建立了最后监督学习框架的结束，用于扫描到平面图SCAN2FP任务。在第一次国际扫描到与CVPR 2021结合举行的BIM挑战中，楼层PP网将第二个赛道排名在地板计划重建轨道中。未来的工作包括一般边缘提案，2D计划正规化和3D BIM重建。

Augmented 2D-TAN: A Two-stage Approach for Human-centric Spatio-Temporal Video Grounding
Authors Chaolei Tan, Zihang Lin, Jian Fang Hu, Xiang Li, Wei Shi Zheng
我们提出了一种有效的两级方法来解决基于语言的人类中心时空视频接地HC STVG任务的问题。在第一阶段，我们提出了一个增强的2D时间相邻的网络增强2D TAN，以在临时接地对应于给定描述的目标时刻。主要是，我们首先从两个方面改进原始2D TAN，开发了一个时间上下文感知BI LSTM聚合模块以聚合剪辑级别表示，替换原始最大池。其次，我们建议在培训阶段采用随机级联增强RCA机制。在第二阶段，我们使用普试使用的MDetr模型通过语言查询生成每个帧边界框，并设计一组手工制作规则，以选择在接地时刻内的每个帧输出的最佳匹配边界框。

Attack to Fool and Explain Deep Networks
Authors Naveed Akhtar, Muhammad A. A. K. Jalwana, Mohammed Bennamoun, Ajmal Mian
深度视觉模型易于对输入的对抗性扰动。虽然这些信号被仔细制作，但它们仍然看起来像对人类的噪音。这种观察导致了深度视觉表现在人类感知中未对准的论点。我们通过在对抗扰动中提供人类有意义的模式的证据来争论。我们首先提出了一种令人愚蠢的攻击，愚弄网络与目标标签将整个对象源类混淆。我们的攻击还限制了来自非来源类的样本的意外愚弄，从而涵盖了用于网络愚弄的人类定义的语义概念。我们表明，拟议的攻击不仅导致扰动中常规几何模式的出现，而且还揭示了关于深层模型决策边界的富有识别信息。进一步探讨这种现象，我们改变了我们攻击的对抗目标，以将其作为解释深层视觉表现的工具。我们表明，通过仔细渠道和投影通过我们的方法计算的扰动，我们可以想象对人类定义的语义概念的模型的理解。最后，我们利用我们扰动的可解释性质来通过攻击对抗的鲁棒分类器来执行图像生成，尿融和交互式图像操纵。在所有情况下，我们的主要贡献是一种新的务实对抗攻击，随后转变为解释视觉模型的工具。本文还提出了二次贡献，即建立我们攻击超越对抗的对抗目标，以多次有趣的应用程序的攻击。

Remote Sensing Images Semantic Segmentation with General Remote Sensing Vision Model via a Self-Supervised Contrastive Learning Method
Authors Haifeng Li, Yi Li, Guo Zhang, Ruoyun Liu, Haozhe Huang, Qing Zhu, Chao Tao
一个新的学习范式，自我监督的学习SSL，可以通过预先培训具有大型未标记图像的一般模型来解决这些问题，然后在下游任务上进行微调，具有很少的标记样本。对比学习是SSL的典型方法，可以学习一般不变的功能。然而，大多数现有的对比学习被设计用于分类任务以获得图像级表示，其可以是需要像素级别辨别的语义分割任务的副最优。因此，我们提出全球风格和本地匹配对比学习网络GLCNet，用于遥感语义分割。具体而言，全局风格的对比模块用于更好地学习图像级表示，因为我们认为样式特征可以更好地代表整体图像特征，匹配对比模块的本地特征旨在学习当地区域的表示，这些区域是有益于语义分割的局部区域的表示。我们评估四个遥感语义分割数据集，实验结果表明，我们的方法大多优于艺术艺术的状态和想象成的预训练。具体而言，使用原始数据集的1个注释，我们的方法在ISPRS Potsdam数据集中改善了kappa，在ISPRS Potsdam数据集和3个相对于现有基线的深度地板覆盖分类数据集中。此外，当上游任务数据集和下游任务之间存在一些差异时，我们的方法优于监督学习。我们的研究促进了遥感语义细分领域自我监督学习的发展。源代码可用

ReGO: Reference-Guided Outpainting for Scenery Image
Authors Yaxiong Wang, Yunchao Wei, Xueming Qian, Li Zhu, Yi Yang
我们的目标是在这项工作中解决挑战但实际的风景图像两种挑战。最近，生成的对抗性学习通过为给定图像产生语义一致内容而显着提升了图像。然而，现有方法总是遭受模糊的纹理和生成部分的伪影，使得整体出现效果缺乏真实性。为了克服弱点，这项工作调查了通过借用邻居的像素来汇合纹理结果的原则方式，即参考图像，名为TextBF Reference TextBF G Uided TextBF O Utpainting Rego。特别地，REMO设计自适应内容选择ACS模块，以传送参考图像的像素以进行纹理补偿目标。为了防止所产生的部分受到参考图像的影响，进一步提出了一种样式的排名损失来增加rego以合成风格一致的结果。 NS6K Cite Yangzx和NS8K Cite Wang的广泛实验，NS6K Cite Yangzx和NS8K Cite Wang，展示了我们refo的有效性。

TGRNet: A Table Graph Reconstruction Network for Table Structure Recognition
Authors Wenyuan Xue, Baosheng Yu, Wen Wang, Dacheng Tao, Qingyong Li
排列行和列中的数据是一个非常有效的数据结构，已广泛用于商业和科学研究。考虑在线和离线文件中的大规模表格数据，自动表识别引起了文档分析社区的越来越关注。虽然人类可以很容易地了解表的结构，但是对于理解这一点，它仍然是一个挑战，特别是由于各种不同的表布局和风格。现有方法通常在不同表格单元之间模拟一个表作为标记序列或邻接矩阵，不能解决表格小区的逻辑位置的重要性，例如，小区位于表的第一行和第二列中。在本文中，我们重构表结构识别的问题作为表图重建，并提出了结束于最终培训台图重建网络TGRNET，用于表结构识别。具体地，所提出的方法具有两个主要分支，单元检测分支和小区逻辑位置分支，共同预测不同小区的空间位置和逻辑位置。三个流行表识别数据集的实验结果和具有表图注释的新数据集Tablow 350K证明了所提出的TGRNET用于表结构识别的有效性。代码和注释将公开可用。

Low-Power Multi-Camera Object Re-Identification using Hierarchical Neural Networks
Authors Abhinav Goel, Caleb Tung, Xiao Hu, Haobo Wang, James C. Davis, George K. Thiruvathukal, Yung Hsiang Lu
嵌入式设备上的低功耗计算机视觉具有许多应用。本文介绍了对对象RE识别REID问题的低功率技术与先前看到的图像的库匹配查询图像。最先进的技术依赖于大型计算密集的深神经网络DNN。我们提出了一种新颖的分层DNN架构，它在训练数据集中使用属性标签来执行高效的对象REID。在层次结构中的每个节点处，小DNN识别查询图像的不同属性。每个叶节点处的小DNN专门用于仅重新识别沿着从根到叶子的路径识别的属性的图像的图像。因此，用几个小DNN处理后，在处理之后精确地识别查询图像。我们将我们的方法与最先进的对象Reid技术进行比较。通过精确度的4次损失，我们的方法实现了显着的资源储蓄74较少的内存，72个操作，67个较低的查询延迟，产生65个能耗。

Exploring Vision Transformers for Fine-grained Classification
Authors Marcos V. Conde, Kerem Turgutlu
由于固有的高级阶级差异和低级别的差异，对分类的现有计算机视觉研究与细粒度的属性识别。 SOTA方法通过定位最具信息丰富的图像区域并依赖于它们来分类完整图像来解决这一挑战。最近的工作，视觉变压器VIT，表现出传统和细粒度的分类任务的强大性能。在这项工作中，我们提出了一种用于细粒度的图像分类任务的多阶段VIT框架，其定位了信息性图像区域，而不需要使用固有的多头自我注意机制的架构变化。我们还介绍了引导引导的增强，以提高模型的功能。我们通过尝试使用四个流行的细粒度基准幼崽200 2011，斯坦福汽车，斯坦福犬和FGVC7植物病理学来证明我们的方法的价值。我们还通过定性结果证明了我们的型号可解释性。

Supervised learning for crop/weed classification based on color and texture features
Authors Faiza Mekhalfa, Fouad Yacef
电脑视觉技术最近吸引了精密农业的极大兴趣。所有计算机视觉的基于精密农业任务的共同目标是检测感兴趣的对象，例如，裁剪，杂草和歧视它们从背景中辨别它们。杂草是不需要的植物，种植营养，水和阳光的作物，导致作物产量损失。杂草检测和映射对于现场特定的杂草管理至关重要，以降低劳动力成本和除草剂的影响。本文调查了颜色和纹理特征的使用，以辨别大豆作物和杂草。特征提取方法包括两个颜色空间RGB，HSV，灰度CO发生矩阵GLCM和局部二进制图案LBP用于训练支持向量机SVM分类器。该实验是在大豆作物的图像数据集上进行的，从无人驾驶航空公司UAV获得，该航空公司可公开可用。来自实验的结果表明，从颜色和LBP特征的组合获得了96升高的最高精度。

VQA-Aid: Visual Question Answering for Post-Disaster Damage Assessment and Analysis
Authors Argho Sarkar, Maryam Rahnemoonfar
视觉问题与无人航空公司无人机集成的答案系统有很多潜力来推进灾后灾害评估目的。为受影响区域提供援助，高度依赖于实时数据评估和分析。视觉问题应答的范围是了解场景并提供查询相关的答案，遇到任何灾难后恢复过程肯定更快。在这项工作中，我们通过展示我们最近开发的VQA数据集在飓风Michael期间收集的文本呼啸VQA，以及比较基线VQA模型的表演来解决灾后灾害评估的文本视觉问题的重要性。

Video Summarization through Reinforcement Learning with a 3D Spatio-Temporal U-Net
Authors Tianrui Liu, Qingjie Meng, Jun Jie Huang, Athanasios Vlontzos, Daniel Rueckert, Bernhard Kainz
智能视频摘要算法允许通过识别删除冗余视频帧的同时识别最重要和解释的内容，快速传达视频中最相关的信息。在本文中，我们介绍了用于视频摘要的3DST UNET RL框架。 3D时空时间U网用于有效地编码用于下游增强学习RL的输入视频的时空时间信息。 RL代理从Spatio时间潜在的分数中学习并预测用于在视频摘要中保持或拒绝视频帧的动作。我们调查真正膨胀的3D时空CNN功能是否更适合于学习视频的表示，而不是常用的2D图像特征。我们的框架可以在完全无监督模式和监督培训模式中运行。我们分析规定的摘要长度的影响，并显示了3DST UNET RL对两个常用一般视频摘要基准的有效性的实验证据。我们还在医疗视频摘要任务上应用了我们的方法。所提出的视频摘要方法有可能节省超声波筛选视频的储存成本，并在浏览患者视频数据期间浏览患者视频数据时，在未丢失基本信息的情况下浏览患者视频数据

Exploring Visual Context for Weakly Supervised Person Search
Authors Yichao Yan, Jinpeng Li, Shengcai Liao, Jie Qin, Bingbing Ni, Xiaokang Yang, Ling Shao
人员搜索最近被出现为一个具有挑战性的任务，共同解决行人检测和人员重新识别。现有方法遵循完全监督的设置，其中包含边界框和身份注释。然而，注释身份是劳动密集型，限制了当前框架的实用性和可扩展性。本文以义框注释创造性地考虑了弱监管人员搜索。我们提出了第一个解决这部小型任务的框架，即通过调查三个级别的上下文线索，即不受约束自然图像中的三级上下文线索来寻找CGP。前两者用于促进局部和全球歧视能力，而后者提高了聚类精度。尽管设计简单，但我们的CGPS在Cuhk Sysu上的MAP中提升了基线模型8.3。令人惊讶的是，它甚至可以实现两个步骤人员搜索模型的可比性，同时显示更高的效率。我们的代码可供选择

CenterAtt: Fast 2-stage Center Attention Network
Authors Jianyun Xu, Xin Tang, Jian Dou, Xu Shu, Yushi Zhu
在本技术报告中，我们在Waymo Open DataSet实时3D检测的挑战中介绍了Hikvision Lidar Det的方法。我们的竞争解决方案是在中心点3D检测框架上建立的。探索了几种中心地点的变种，包括中心注意力头和特征金字塔网络颈部。为了实现实时检测，采用了批量合并，半精密浮点网络和GPU加速体钢化过程等方法。通过使用这些方法，我们的团队在Waymo Open DataSet中实时3D检测挑战中的所有方法中排名第6。

CompConv: A Compact Convolution Module for Efficient Feature Learning
Authors Chen Zhang, Yinghao Xu, Yujun Shen
卷积神经网络CNNS在各种计算机视觉任务中取得了显着的成功，但依赖于巨大的计算成本。为了解决这个问题，现有方法压缩训练有素的大型模型或使用精心设计的网络结构学习轻量级模型。在这项工作中，我们对卷积运营商进行了密切的研究，该卷积运营商是CNN中使用的基本单元，以减少其计算负荷。特别是，我们提出了一种紧凑的卷积模块，称为COMPCONV，以促进有效的特征学习。随着鸿沟和征服策略，COMPCONV能够节省许多计算以及参数以产生某个维度特征映射。此外，COMPCONV谨慎地将输入功能集成到输出中，以有效地继承输入信息。更重要的是，新颖的COMPCONV是一种即插即用模块，可以直接应用于现代CNN结构，以替换Vanilla卷积层而无需进一步努力。广泛的实验结果表明，COMPCONV可以充分压缩基准CNN结构但几乎没有牺牲性能，超越其他竞争对手。

Unbalanced Feature Transport for Exemplar-based Image Translation
Authors Fangneng Zhan, Yingchen Yu, Kaiwen Cui, Gongjie Zhang, Shijian Lu, Jianxiong Pan, Changgong Zhang, Feiying Ma, Xuansong Xie, Chunyan Miao
尽管GAN的图像翻译成功了不同的条件输入，如语义分割和边缘地图，但是通过参考样式产生高保真现实图像仍然是条件图像的宏重挑战。本文介绍了一般的图像翻译框架，它包含了在图像转换中的条件输入和样式示例之间的特征对齐的最佳传输。最佳运输的引入减轻了许多特征在一个特征匹配的限制，同时构建条件输入和示例之间的准确语义对应。我们设计一种新颖的不平衡最佳运输，以解决具有在条件输入和示例之间广泛存在的偏差分布之间的特征之间的传输。此外，我们设计了一种语义激活标准化方案，将样式的样式特征注入图像转换过程中。在多个图像转换任务上进行广泛的实验表明，与现有技术相比，我们的方法在定性和定量地实现了优越的图像转换。

Practical Transferability Estimation for Image Classification Tasks
Authors Yang Tan, Yang Li, Shao Lun Huang
转移性估计是转移学习中的重要问题，以预测性能如何在将源模型源任务转移到目标任务时的良好。最近的分析转移性度量已被广泛用于源模型选择和多任务学习。在挑战的跨领域跨任务传输设置下，早期的指标无法充分运行，但最近的OTCE分数使用辅助任务实现了值得注意的性能。一个名为基于的NCE评分的简化版本牺牲了准确性，更有效，但它可以进一步提高。因此，我们提出了一种名为JC NCE分数的实际可转换度量，以进一步提高跨域跨任务转移性估计性能，这比OTCE分数更有效，比基于OT的NCE分数更准确。具体地，我们通过考虑样本距离和标签距离来解决最佳运输问题，在考虑样本距离和标签距离之间构建源数据和目标数据之间的联合对应关系，然后将可转移性得分计算为负条件熵。数据集内部集和DIMASET传输设置下的广泛验证表明，我们的JC NCE评分分别优于基于OT的NCE分数，分别具有约7和12个增益。

Informative Class Activation Maps
Authors Zhenyue Qin, Dongwoo Kim, Tom Gedeon
我们研究如何评估图像内的区域内的区域的定量信息内容。为此，我们桥接具有信息理论的类激活图。我们开发信息丰富的类激活地图infoCam。给定分类任务，infocam描绘了如何将部分区域的信息累积到整个图像的朝向标签。因此，我们可以利用InfoCam来定位标签的最具信息性功能。当应用于图像分类任务时，InfoCam在弱监督对象本地化任务中的传统分类映射更好地执行。我们达到了艺术的态度，结果在微小的想象中。

Interactive Object Segmentation with Dynamic Click Transform
Authors Chun Tse Lin, Wei Chih Tu, Chih Ting Liu, Shao Yi Chien
在交互式分段中，用户最初单击目标对象以分段为主体，然后在错误标记区域上提供校正，以迭代地完善分段掩码。大多数现有方法转换这些用户提供点击进入交互映射并用图像连接它们作为输入张量。通常，通过测量每个像素到点击点的距离来确定交互图，忽略点击和错误标记区域之间的关系。我们提出动态点击变换网络DCT网，由空间DCT组成和特征DCT，更好地代表用户交互。 Spatial DCT根据目标刻度为每个用户转换各个用户，并且功能DCT将提取的特征映射标准化为从点击点预测的特定分布。我们展示了我们提出的方法的有效性，并在三个标准基准数据集中实现了良好的性能。

Place recognition survey: An update on deep learning approaches
Authors Tiago Barros, Ricardo Pereira, Lu s Garrote, Cristiano Premebida, Urbano J. Nunes
自动车辆AV正在变得越来越能在具有动态和变化的条件下在复杂的环境中导航。一种关键组件，使这些智能车辆能够克服这种情况并变得更加自主的是感知和本地化系统的复杂性。作为本地化系统的一部分，地点识别从最近的其他感知任务中的开发中受益，例如地方分类或对象识别，即随着深度学习DL框架的出现。本文调查了最近用于识别的方法和方法，特别是基于深度学习的方法。这项工作的贡献是双重测量最近的传感器，如3D LIDAR和雷达，应用于识别和分类各种DL基于DL的地方识别，以监督，无监督，半监督，并行和分层类别。首先，本调查介绍了关键地位识别概念来上下文化读者。然后，解决传感器特性。本调查通过详细说明了基于DL的各种作品，为每个框架提出摘要进行了阐述。从本次调查中学到的一些教训包括Netvlad对监督结束的重要性，最终学习无监督方法的优势，即用于跨域申请或近期作品的越来越高的趋势，不仅用于更高的性能，而且还为更高的性能而且更高效率。

Humble Teachers Teach Better Students for Semi-Supervised Object Detection
Authors Yihe Tang, Weifeng Chen, Yijun Luo, Yuting Zhang
在教师双模框架之后，为当代对象探测器提出了一个半监督方法。我们的方法是1个指数移动平均策略，可从学生在线更新老师，2使用大量区域提案和软伪标签作为学生的培训目标，以及3个灯加权检测老师的特定数据集合生成更可靠的伪标签。与最近的艺术状态相比，在稀疏选择的硬伪样本上使用硬标签，我们模型中的教师向学生提供更丰富的信息，在许多提案上具有软标签。我们的模型在VOC07 VAL SET上实现了53.04的COCO STYLE AP，8.4比Stac更好，当使用VOC12作为未标记的数据。在COCO上，当只按照标记的少量数据时，它比较少量的工作。它还在MS Coco Test Dev上达到53.8 AP，通过将完全监督的Reset 152级联R CNN级联，通过将与标记数据的类似大小的未标记数据进行攻击。

MSN: Efficient Online Mask Selection Network for Video Instance Segmentation
Authors Vidit Goel, Jiachen Li, Shubhika Garg, Harsh Maheshwari, Humphrey Shi
在这项工作中，我们为视频实例分段Vis提供了一种新颖的解决方案，它正在自动生成实例级别分段掩码以及对象类并在视频中跟踪它们。我们的方法以使用掩模选择网络MSN以在线方式改进来自分段和传播分支的掩码，因此限制了掩模跟踪期间的噪声累积。我们通过使用基于补丁的卷积神经网络提出了MSN的有效设计。网络能够区分掩模之间的非常微妙的差异，并准确地选择更好的掩模。此外，我们利用时间一致性，并以前向和反向的方式处理视频序列作为恢复丢失对象的后处理步骤。所提出的方法可用于调整VIS任务的任何视频对象分段方法。我们的方法在2021 YouTube Vis挑战中获得了49.1地图的得分，并且在30多名全球团队中排名第三。我们的代码将可用

Attend What You Need: Motion-Appearance Synergistic Networks for Video Question Answering
Authors Ahjeong Seo, Gi Cheon Kang, Joonhan Park, Byoung Tak Zhang
视频问题应答是一项任务，需要AI代理在视频中接地的问题。这项任务需要三个关键挑战1了解各种问题的意图，2捕获输入视频的各种元素，例如，语言和视觉信息之间的对象，动作，因果关系和3跨越模式。我们提出了运动外观协同网络MASN，其嵌入了两种跨模型功能，接地为运动和外观信息，并根据问题的意图选择性地利用它们。 Masn由运动模块，外观模块和运动外观融合模块组成。运动模块计算面向动作的跨模型关节表示，而外观模块侧重于输入视频的外观方面。最后，运动外观融合模块将动作模块和外观模块的每个输出作为输入执行，并执行问题引导融合。因此，MASN在TGIF QA和MSVD QA数据集上实现了最新的最新状态。我们还通过可视化MASN的推理结果来进行定性分析。代码可用

Neural Network Facial Authentication for Public Electric Vehicle Charging Station
Authors Muhamad Amin Husni Abdul Haris, Sin Liang Lim
本研究是调查和比较DLIB Reset对K最近邻kNN分类器的面部识别准确性性能。特别是当在亚洲民族中使用的数据集时，据报道，当亚洲脸上有准确性缺陷时具有精度缺陷。比较在使用面向梯度Hog方法的直方图提取的面部矢量上实现并使用相同的数据集进行公平比较。通过电动车辆EV充电站中的面部识别认证用户的认证演示了这种认证系统的实用案例。

AdaZoom: Adaptive Zoom Network for Multi-Scale Object Detection in Large Scenes
Authors Jingtao Xu, Yali Li, Shengjin Wang
由于小物体和极度变化，大规模场景中的检测是一个具有挑战性的问题。关注小物体的图像区域至关重要。在本文中，我们提出了一种新颖的自适应变焦Adazoom网络作为具有灵活形状和焦距的选择性放大镜，以便自适应地缩放对象检测的焦点区域。基于政策梯度，我们构建了对焦点区域生成的加强学习框架，由对象分布制定的奖励。生成区域的尺度和宽高比是自适应的，对物体的尺度和分布。根据适自适应多尺度检测的区域的规模，我们应用可变放大率。我们进一步提出了协作培训，以补充促进Adazoom和检测网络的性能。为了验证有效性，我们对Vistrone2019，UAVDT和DOTA数据集进行了广泛的实验。实验表明Adazoom在不同的检测网络上产生了一致而显着的改进，实现了这些数据集上的最新状态，特别优于VIS Drone2019上的4.64的现有方法。

Dynamical Deep Generative Latent Modeling of 3D Skeletal Motion
Authors Amirreza Farnoosh, Sarah Ostadabbas
在本文中，我们提出了一种贝叶斯开关动力学模型，用于随着时间的推移在数据上揭示了3D构成数据的分割动态模型，并且是生成的。我们的模型将高度相关的骨架数据分解成一组在低维潜在框架中切换时间过程的几个空间基础。我们在开关深向量自回转性方面参数化这些时间流程，以便适应多峰和高阶非线性依赖性。这导致一种动态的深生成潜在模型，其使用近似变分推理在3D姿势数据的动态中解析有意义的内在状态，并实现了复杂的骨架运动的逼真的低电平动态产生和分割。我们对含有蝙蝠飞行，莎莎舞，步行和高尔夫数据集的四个生物运动数据的实验证实了我们的模型的优越性，与现有技术的方法相比。

The Animal ID Problem: Continual Curation
Authors Charles V. Stewart, Jason R. Parham, Jason Holmberg, Tanya Y. Berger Wolf
希望在图像中刺激个体动物识别的新研究，我们建议制定作为人机持续策划图像和动物身份的问题。这是一个开放的世界识别问题，大多数新动物在其算法最初培训和部署后进入系统。在此处定义的持续策策需要提高当前识别方法的有效性，2个允许无决定的成对验证算法，以及3次算法决策机制，该算法决策机制寻求人类输入以指导策策。错误指标必须评估识别算法的能力，不仅可以识别只有一次或两次的动物，而且还识别不在数据库中的新动物。整体系统性能的一个重要衡量标准是精度，作为所需人体输入量的函数。

Single View Physical Distance Estimation using Human Pose
Authors Xiaohan Fei, Henry Wang, Xiangyu Zeng, Lin Lee Cheong, Meng Wang, Joseph Tighe
我们提出了一种完全自动化的系统，该系统同时估计来自单个RGB图像或通过摄像机捕获的人之间的视频之间的摄像机内在的内在，地面平面和物理距离从固定的有利点观看3 D场景。为了自动化摄像机校准和距离估计，我们利用关于人类姿势的前提，并为基于姿势的自动校准和距离估计开发了一种新的直接配方，其显示了公共可用数据集的最新性能。所提出的方法使现有的相机系统能够测量物理距离而不需要专用的校准过程或范围传感器，并且适用于广泛的使用情况，例如社交偏移和工作场所安全。此外，为了在该领域启用评估和驱动研究，我们为公开的Meva数据集有助于额外的距离注释，导致Mevada为姿势基于自动校准和距离估计问题的世界第一个评估基准。

A system of vision sensor based deep neural networks for complex driving scene analysis in support of crash risk assessment and prevention
Authors Muhammad Monjurul Karim, Yu Li, Ruwen Qin, Zhaozheng Yin
为了协助人类驱动因素和自主车辆评估崩溃风险，在车辆上使用划线照相机和深度学习算法驾驶场景分析至关重要。虽然这些技术越来越可用，但为此目的驾驶场景分析仍然是一个挑战。这主要是由于缺乏注释的大型图像数据集，用于分析碰撞风险指标和崩溃可能性，以及缺乏从复杂的驾驶场景中提取许多所需信息的有效方法。要填补差距，本文开发了一个场景分析系统。该系统的多网包括两个多任务神经网络，该网络执行场景分类，为每个场景提供四个标签。 DEEPLAB V3和YOLO V3由系统组合以检测和定位风险的行人和最近的车辆。所有已确定的信息都可以为自主车辆或人类驱动因素提供态势意识，用于识别周围交通的崩溃风险。为了解决用于学习交通崩溃的注释图像数据集的稀缺性，本文开发了两个完全新的数据集，并向公众提供，这被证明有效地培训建议的深度神经网络。本文进一步评估了多网的性能和开发系统的效率。通过代表性实施例进一步说明了综合场景分析。结果展示了开发系统和数据集进行了驾驶场景分析的有效性，以及他们对碰撞风险评估和防止碰撞的支持。

Towards Single Stage Weakly Supervised Semantic Segmentation
Authors Peri Akiva, Kristin Dana
获取语义分段标签的昂贵过程已经驱动了对弱监督的语义分割WSSS方法的研究，仅使用图像级别，点或框标签。缺乏密集的场景表示需要方法来提高复杂性，以获得有关现场的额外语义信息，通常通过多个培训和改进阶段进行。本领域的现有状态SOTA模型利用图像级标签来生产类激活地图，然后在阈值下通过多个细化阶段进行阈值以使伪掩模进行监督。多级方法是计算昂贵的，并且对凸轮生成的图像级标签的依赖性缺乏更复杂的场景的完全性。相反，我们的方法提供了一个阶段方法，可概括为任意数据集，可从头开始培训，而没有任何依赖于预训练的骨干，分类或单独的细化任务。我们利用点注释来通过精细和过滤的功能在飞行伪掩模上产生可靠的。虽然我们的方法需要只比图像级注释略贵的点注释，但我们要在基准数据集Pascalvoc 2012上展示Sota性能，以及在最近的真实世界数据集Craid，CityPersons，IAD上的其他Sota WSSS方法。

How Do Adam and Training Strategies Help BNNs Optimization?
Authors Zechun Liu, Zhiqiang Shen, Shichao Li, Koen Helwegen, Dong Huang, Kwang Ting Cheng
使用ADAM优化及其多步训练变体通常获得最佳的二进制神经网络BNN。然而，据我们所知，很少有研究探讨亚当亚当优于其他优化器的基本原因，如SGD为BNN优化，或提供支持特定培训策略的分析解释。为了解决这个问题，在本文中，我们首先在培训过程中调查BNN中梯度和重量的轨迹。我们展示了二阶动量在ADAM中的正则化效果至关重要，以振兴由于BNNS中的激活饱和度而死亡的重量。我们发现亚当通过其自适应学习速率策略，更好地装备用于处理BNN的粗糙损耗表面，并以更高的概括能力达到更好的最佳选择。此外，我们检查实值重量在二进制网络中的有趣作用，并揭示了重量衰减对BNN优化稳定性和缓慢的影响。通过广泛的实验和分析，我们推出了一种简单的培训计划，建立了现有的基于亚当优化的优化，它在想象成数据集上实现了70.5个使用与最佳架构的ImageNet数据集的最高精度，同时实现了1.1的准确性。代码和型号可用

Attention-based Neural Network for Driving Environment Complexity Perception
Authors Ce Zhang, Azim Eskandarian, Xuelai Du
环境感知对于自主车辆AV安全至关重要。大多数现有的AV感知算法尚未研究周围环境复杂性，并且无法包含环境复杂性参数。本文提出了一种基于新的神经网络模型，以预测周围驾驶环境的复杂程度。所提出的模型采用自然主义驾驶视频和相应的车辆动态参数作为输入。它由YOLO V3对象检测算法，热图生成算法，基于CNN的特征提取器和基于CNN的关注的特征提取器，用于视频和时间序列车辆动态数据输入以提取特征。来自所提出的算法的输出是周围环境复杂度参数。伯克利DeepDrive DataSet BDD数据集和主观标记的周围环境复杂度级别用于模型培训和验证以评估算法。基于提出的网络的网络达到了91.22平均分类准确性，以分类周围环境复杂性。它证明了环境复杂程度可以准确预测和应用未来的AVS环境感知研究。

Domain and Modality Gaps for LiDAR-based Person Detection on Mobile Robots
Authors Dan Jia, Alexander Hermans, Bastian Leibe
人口流经环境中导航的移动机器人是鉴于其准确的深度测量和大视野，LIDAR传感器对移动机器人进行了一个关键任务。本文研究了现有的基于LIDAR的人探测器，特别关注移动机器人场景。与驾驶场景相比，服务机器人或社会机器人，在那里观察到人员更频繁地观察到更频繁的范围。我们使用最近发布的千斤顶数据集和基于3D或2D激光雷达传感器中心点和DR Spaam的最近发布的Jackrabbot DataSet和现有技术的状态进行了一系列实验。这些实验围绕了驾驶和移动机器人场景之间的域间隙，以及3D和2D激光雷达传感器之间的模态差距。对于域间隙，我们的目标是了解驾驶数据集上备用的探测器是否可以在移动机器人方案上实现良好的性能，目前没有培训的型号随时可用。对于模态差距，我们比较使用3D或2D LIDAR的探测器，从各个方面，包括性能，运行时，本地化准确性，鲁棒性与范围和拥挤。我们的实验结果提供了对基于LIDAR的人员检测的实用洞察，并促进相关的移动机器人设计和应用的知情决策。

Chinese Abs From Machine Translation

Papers from arxiv.org

更多精彩请移步主页

pic from pexels.com