【AI视野·今日CV 计算机视觉论文速览第209期】Mon, 31 May 2021_deeptag: a general framework for fiducial marker d-CSDN博客

本文链接：https://blog.csdn.net/u014636245/article/details/117427282

AI视野·今日CS.CV 计算机视觉论文速览
Mon, 31 May 2021
Totally 46 papers
👉上期速览✈更多精彩请移步主页

在这里插入图片描述

Daily Computer Vision Papers

Boosting Monocular Depth Estimation Models to High-Resolution via Content-Adaptive Multi-Resolution Merging
Authors S. Mahdi H. Miangoleh, Sebastian Dille, Long Mai, Sylvain Paris, Ya z Aksoy
神经网络在估计从单个图像的深度方面表现出具有很大能力。然而，推断的深度图远低于1万像素的分辨率，并且通常缺乏细粒细节，这限制了它们的实用性。我们的方法在我们对输入分辨率和场景结构如何影响深度估计性能的分析上构建。我们证明在一致的场景结构和高频细节之间存在折衷，并且合并低分辨率和高分辨率估计，以利用简单的深度合并网络利用这种二元性。我们提出了一种改进整个图像深度估计和补丁选择方法的双重估计方法，该方法将本地细节添加到最终结果。我们证明，通过使用更改的上下文的不同分辨率的估计来合并，我们可以使用预先训练的模型生成具有高级细节的多百万像素深度映射。

Iris Liveness Detection using a Cascade of Dedicated Deep Learning Networks
Authors Juan Tapia, Sebastian Gonzalez, Christoph Busch
由于其高稳定性和唯一性，IRIS模式识别显着改善了生物认证领域。这种物理特征在安全和其他相关领域发挥了重要作用。然而，介绍攻击，也称为欺骗技术，可以使用诸如印刷图像，人造眼睛，纹理隐形眼镜等的人工制品绕过生物认证系统。提出了提高这些系统的安全性的许多活性检测方法。第一次国际虹膜活性探测竞赛，在评估活动检测方法的有效性，于2013年首次发布，其最新迭代于2020年举行。本文提出了一种基于MobileNetv2修改的串行架构，从头开始培训以进行分类BONA FIDE IRIS图像与演示文稿攻击图像。 BONA FIDE类由Live Iris图像组成，而攻击演示文稿仪表组由Cadaver，印刷和隐形眼镜图像组成，总共有四种情况。所有图像都是预先处理和加权每个班级以呈现公平的评估。该提案赢得了使用两类方案的Livdet IRIS 2020竞争。此外，我们展示了新的三类和四类情景，进一步改善了竞争结果。这种方法主要集中在改善呈现攻击仪器的检测方面检测真正的类。对于两个，三个和四个类场景，分别获得4.04,0.33和4,53的等于误差率eer。总的来说，使用三种方案提出的最佳串行模型达到0.33的ERR，攻击演示分类错误率Apcer为0.0100，BPCER为0.000。这项工作优于Livdet IRIS 2020竞争结果。

Linguistic Structures as Weak Supervision for Visual Scene Graph Generation
Authors Keren Ye, Adriana Kovashka
现场图表生成的事先工作需要在三联网主题和对象的级别进行分类监督，以及谓词，其中包含或不具有边界框信息。但是，场景图生成是整体任务，因此整体，上下文监督应该直观地提高性能。在这项工作中，我们探讨了标题中的语言结构如何受益场景图生成。我们的方法捕获了关于各个三元组之间关系的标题中提供的信息，以及对象和对象的背景。提及可视化性。标题是比三态度较弱的监督类型，因为人类注释的受试者和三联物体的物体的详尽列表和标题中的名词之间的对齐是弱的。但是，鉴于网络上的多模式数据的大型多样化源。博客帖子具有图像和标题，语言监督比众包三胞胎更可扩展。我们对利用实例和图像级监督的前进方法显示了广泛的实验比较，并消除了我们的方法，以显示利用短语和顺序上下文的影响，以及改善受试者和物体本地化的技术。

EDEN: Deep Feature Distribution Pooling for Saimaa Ringed Seals Pattern Matching
Authors Ilja Chelak, Ekaterina Nepovinnykh, Tuomas Eerola, Heikki Kalviainen, Igor Belykh
在本文中，考虑了PELAGE模式匹配来解决Saimaa环形密封件的个人RE识别。动物重新识别通过摄像机陷阱和人群采购一起获得大量图像材料，为动物监测和保护提供了新的可能性。我们提出了一种新颖的特征池方法，允许聚合本地模式功能以通过考虑特征的空间分布来获取包含全局特征的固定大小嵌入载体。这是通过代表特征映射的概率质量函数计算的考核分解而获得的。然后可以使用嵌入向量来在允许动物重新识别的已知个人数据库中找到最佳匹配。结果表明，建议的汇集方法优于挑战Saimaa环形密封图像数据的现有方法。

What Is Considered Complete for Visual Recognition?
Authors Lingxi Xie, Xiaopeng Zhang, Longhui Wei, Jianlong Chang, Qi Tian
这是一个意见论文。我们希望提供一条关键消息，即当前的视觉识别系统远非完整，即，识别人类能够识别的一切，但它非常不太可能通过不断增加人类的注释来弥合差距。基于观察，我们倡导通过压缩命名为学习的新型预培训任务。计算模型例如，深网络被优化以表示使用紧凑功能的可视数据，并且特征保留恢复原始数据的能力。语义注释，可用时，发挥弱监管的作用。一个重要但具有挑战性的问题是评估图像恢复，我们建议一些设计原则和未来的研究方向。我们希望我们的提案能激励社区追求压缩恢复权衡而不是准确性复杂性权衡。

Revitalizing Optimization for 3D Human Pose and Shape Estimation: A Sparse Constrained Formulation
Authors Taosha Fan, Kalyan Vasudev Alwala, Donglai Xiang, Weipeng Xu, Todd Murphey, Mustafa Mukadam
我们提出了一种新颖的稀疏约束制剂，并从它推导出3D人姿势和形状估计的实时优化方法。我们的优化方法是数量级的平均值。 4 MS收敛比现有的优化方法，同时在数学上等同于它们的密集无约束制剂。我们通过利用我们配方的潜在稀疏性和限制来实现这一目标，以有效地计算高斯牛顿方向。我们表明该计算与复杂3D人体模型的关节数量线性地缩放，与先前的工作相比，它由于其密集的未经约束的制剂而统计而达到均方面。基于我们的优化方法，我们介绍了一个实时运动捕获框架，其估计3D人类姿势和从单个图像的形状超过30 fps。在对多个公共数据集的最先进方法的基准测试中，我们的帧工作优于其他优化方法，并实现了对回归方法的竞争精度。

NViSII: A Scriptable Tool for Photorealistic Image Generation
Authors Nathan Morrical, Jonathan Tremblay, Yunzhi Lin, Stephen Tyree, Stan Birchfield, Valerio Pascucci, Ingo Wald
我们展示了一个基于Python基于NVIDIA S Optix Ray跟踪发动机和Optix AI Denoiser的渲染器，旨在为计算机视觉和深度学习进行高质量的合成图像。我们的工具使得包含对象网格，材料，纹理，照明，体积数据的复杂动态3D场景的描述和操纵..，烟雾和背景。还可以生成元数据，例如2D 3D边界框，分段掩码，深度映射，普通贴图，材料属性和光学流量矢量。在这项工作中，我们讨论设计目标，架构和性能。我们展示了通过路径跟踪生成的数据用于训练对象检测器和姿势估计器，显示SIM中的性能改进，以便在基于传统光栅的渲染器中难以实现的情况。我们将此工具作为一种易于使用，性能，高质量的渲染器，用于推进合成数据生成和深度学习的研究。

Training of SSD(Single Shot Detector) for Facial Detection using Nvidia Jetson Nano
Authors Saif Ur Rehman, Muhammad Rashid Razzaq, Muhammad Hadi Hussian
在该项目中，我们使用了计算机视觉算法SSD单次检测器计算机视觉算法，并从数据集中训练了该算法，该算法由139张图片组成。使用英特尔CVAT计算机视觉注释工具标记图像

Demotivate adversarial defense in remote sensing
Authors Adrien Chan Hon Tong, Gaston Lenczner, Aurelien Plyer
卷积神经网络目前是本领域的算法，用于许多遥感应用，例如语义分割或物体检测。然而，这些算法对拟合，域变化和对抗示例非常敏感，专门设计用于欺骗它们。虽然对逆势攻击不是大多数遥感应用的威胁，但有人可能会怀疑加强对抗性攻击的网络也可能会增加他们对拟合和他们处理固有品种的固有品种的能力的恢复力。在这项工作中，我们将对抗性再培训和对抗的正规化作为对抗的对抗性防御。然而，我们通过若干关于公共遥感数据集的几个实验，对抗性鲁棒性似乎不相关，以便地理和拟合稳健性。

Recursive Contour Saliency Blending Network for Accurate Salient Object Detection
Authors Yi Ke Yun, Chun Wei Tan, Takahiro Tsubono
轮廓信息在突出对象检测中起着重要作用。然而，由于轮廓耐药性融合不足，过多的假阳性仍然存在于现有的基于轮廓的模型的预测。在这项工作中，我们设计了一种用于更好的边缘质量在突出物体检测中的网络。我们提出了一种轮廓显着混合模块，以交换轮廓和显着性之间的信息。我们采用递归CNN来增加轮廓显着融合，同时保持总培训参数相同。此外，我们设计了一个舞台明智的特征提取模块，以帮助模型从以前的中间显着性预测中获取最有用的功能。此外，我们提出了两个新的损失功能，即双重监禁损失和信心损失，为我们的模型产生更好的边界预测。五个常见基准数据集的评估结果表明，我们的模型实现了最竞争的艺术表现状态。最后但并非最不重要的是，我们的模型是轻巧且快速的，只有2790万参数，并且在31 FPS的实时推理。

Improving Facial Attribute Recognition by Group and Graph Learning
Authors Zhenghao Chen, Shuhang Gu, Feng Zhu, Jing Xu, Rui Zhao
利用属性之间的关系是改善多个面部属性识别的关键挑战。在这项工作中，我们涉及两种类型的相关性，这些相关性是空间和非空间关系。对于空间相关性，我们将具有空间相似性的属性聚合到基于零件的组中，然后引入组注意学习以生成组注意力和基于部分的组特征。另一方面，要发现非空间关系，我们模拟基于基于群的图形相关学习，以探索基于预定部分组的亲和力。我们利用此类亲和信息来控制所有组之间的通信，然后优化学习组功能。总的来说，我们提出了一个称为多尺度组和图形网络的统一网络。它包含这两个新提出的学习策略，并产生基于微图的基于曲线图的组特征，以改善面部属性识别。综合实验表明，我们的方法优于现有技术的方法。

The Herbarium 2021 Half-Earth Challenge Dataset
Authors Riccardo de Lutio, Damon Little, Barbara Ambrose, Serge Belongie
Herbenium床单具有世界植物历史，进化和多样性的独特观点。这使得它们成为植物学研究的所有重要数据源。随着全球豆果花的数字化和可以促进自动识别植物标目标本的细粒度分类领域的进步，在这一领域有很多支持研究的机会。然而，就代表的分类群，地理分布或主办机构而言，现有数据集太小，或者不多。此外，难以在多种不同名称下存在的速率存在多个数据集，并且分类法需要对齐与公共参考。我们介绍了Herbarium半地球数据集，迄今为止迄今为止迄今为止最大，最多样化的植物标目标本数据集。

The Wits Intelligent Teaching System: Detecting Student Engagement During Lectures Using Convolutional Neural Networks
Authors Richard Klein, Turgay Celik
为了执行班次教学并对学生在课堂上需要敏感，讲师必须能够快速评估观众的状态。虽然有效的教师能够容易地衡量学生的情感状态，因为班级尺寸增长，这变得越来越困难，更确切地说。 WITS智能教学系统旨在帮助讲师具有关于学生影响的实时反馈。重点主要是识别啮合或缺乏。学生订婚基于对课堂设置常见的行为和姿势标记。然后在观察清单中使用这些代理以构建参与的数据集，该数据集基于AlexNet的CNN成功训练，并且显着优于支持向量机方法。深度学习方法在具有显着遮挡，照明和分辨率的情况下，充满挑战性的现实世界数据集提供了令人满意的结果。

Using Convolutional Neural Networks for Relative Pose Estimation of a Non-Cooperative Spacecraft with Thermal Infrared Imagery
Authors Maxwell Hogan, Duarte Rondao, Nabil Aouf, Olivier Dubois Matra
近期对轨道服务和活跃的碎片删除ADR任务的兴趣已经推动了需要技术，以实现非合作的共同动作。这种演习对追踪航天器的感知能力进行了沉重的负担。本文演示了能够从被动热红外相机馈送提供目标的初始粗糙姿势估计的卷积神经网络CNN。热敏摄像机为可见的相机提供了有希望的替代品，在低光条件下挣扎并易于过度曝光。通常，目的上的热信息不可用本文不可用本文，因此提出使用可见图像来训练网络。模型的稳健性在两种不同的目标上展示，首先是合成数据，然后在实验室环境中，用于在ADR任务期间可能面临的现实情景。鉴于由于他们的黑匣子性质，在关键应用中使用CNN的使用很多，我们使用创新技术来解释对我们网络和故障状况的重要性。

Chromatic and spatial analysis of one-pixel attacks against an image classifier
Authors Janne Alatalo, Joni Korpihalkola, Tuomo Sipola, Tero Kokkonen
一个像素攻击是通过在输入图像中改变一个像素来欺骗神经网络分类器的好奇方式。该攻击方法的全部潜力和界限尚未完全理解。在这项研究中，更详细地研究了成功和不成功的攻击，以说明一个像素攻击的工作机制。这些数据来自我们早期的研究，我们将攻击对抗医学成像。我们使用真正的乳腺癌组织数据集和真正分类器作为攻击目标。本研究提供了分析一个像素攻击的色度和空间分布的方法。此外，我们呈现一个像素攻击置信界面以说明目标分类器的行为。我们表明，更有效的攻击更加有效地改变了像素的颜色，并且成功的攻击位于图像的中心。这种分析不仅用于了解攻击的行为，还可以是分类神经网络的特质。

Embedded Vision for Self-Driving on Forest Roads
Authors Sorin Grigorescu, Mihai Zaha, Bogdan Trasnea, Cosmin Ginerica
罗马尼亚的森林道路是独特的天然野生动物场所，用于娱乐无数游客。为了保护和维护这些道路，我们提出了Rovislab Amtu自主移动测试单元，它是一个机器人系统，旨在自主地浏览道路地形并检查是否沿着跟踪路线发生任何砍伐或损坏。 AMTU的核心组件是其嵌入式视觉模块，优化了实时环境感知。为了实现高计算速度，我们使用学习系统培训一个多任务深神经网络DNN，用于对象的场景和实例分段，而同时定位和映射所需的关键点使用手工快速特征检测器和Lucas Kanade计算。跟踪算法。 DNN和手动骨干都在NVIDIA AGX Xavier板的GPU上并行运行。我们对我们的研究设施的测试轨迹展示了实验结果。

New Image Captioning Encoder via Semantic Visual Feature Matching for Heavy Rain Images
Authors Chang Hwan Son, Pung Hwi Ye
图像标题生成描述从输入图像中描述场景的文本。它已经为清晰天气拍摄的高质量图像开发。然而，在恶劣的天气条件下，如大雨，雪和致密的雾，由于雨条纹，雨积累和雪花的可见性差导致图像质量严重退化。这阻碍了有用的视觉特征的提取，并导致图像标题性能劣化。为了解决实际问题，本研究介绍了用于标题重型雨量图像的新编码器。中央观点是将从大雨输入图像中提取的输出功能转换为与单词和句子上下文相关的语义视觉功能。为此，目标编码器最初培训在编码器解码器框架中，以将视觉特征与语义单词相关联。随后，通过使用基于大雨模型的初始重建子网IRS来呈现大雨图像中的物体。然后将IRS与另一个语义视觉特征匹配与子网SVFMS匹配，以将IRS的输出特征与预先预测的目标编码器的语义视觉功能匹配。所提出的编码器基于IRS和SVFM的联合学习。它是终止于结束的方式训练，然后连接到预磨削的解码器以进行图像标题。它在实验上证明，所提出的编码器可以产生即使从大雨图像中与单词相关联的语义视觉特征，从而提高了所生成的标题的准确性。

DeepTag: A General Framework for Fiducial Marker Design and Detection
Authors Zhuming Zhang, Yongtao Hu, Guoxing Yu, Jingwen Dai
基准标记系统通常由标记，检测算法和编码系统组成。标记的外观和检测稳健性通常受现有检测算法的限制，这些检测算法是用传统的低级图像处理技术制作的。此外，需要精致设计的编码系统来克服标记和检测算法的缺点。为了提高各种应用中的灵活性和鲁棒性，我们提出了一般的深度学习框架，探测器，用于基准标记设计和检测。 DEEPTAG不仅支持检测各种现有的标记系列，而且还可以设计具有定制本地模式的新标记家庭。此外，我们提出了一种有效的程序，可以在没有手动注释的情况下在飞行中综合培训数据。因此，Deeptag可以容易地适应现有和新设计的标记家庭。为了验证缺陷和现有方法，在现有数据集之前，我们进一步收集了一个新的大型和具有挑战性的数据集，其中标记放在不同的视图距离和角度。实验表明，Deeptag井支持不同的标记家族，并且在检测鲁棒性和姿势精度方面大大优于现有方法。代码和数据集可在URL中获得

AutoSampling: Search for Effective Data Sampling Schedules
Authors Ming Sun, Haoxuan Dou, Baopu Li, Lei Cui, Junjie Yan, Wanli Ouyang
数据采样在培训深度学习模型中作出关键作用。然而，由于在学习采样时间表时，难以学习有效的采样时间表。在本文中，我们提出了一种自动采样方法，自动学习用于模型培训的采样时间表，这包括旨在最佳的本地采样时间表和理想采样分布的勘探步骤的多剥削步骤。更具体地，我们通过缩短的开发周期实现采样计划搜索，以提供足够的监督。此外，我们周期性地估计从学习的采样时间表中的采样分发，并使它扰乱分发空间。两种搜索的组合允许我们学习强大的采样计划。我们将自动采样方法应用于各种图像分类任务，示出了所提出的方法的有效性。

Learning Uncertainty For Safety-Oriented Semantic Segmentation In Autonomous Driving
Authors Victor Besnier, David Picard, Alexandre Briot
在本文中，我们通过触发无法保证目标准确性，可以利用如何利用不确定性估计来实现自主驱动中的安全临界图像分割。我们根据不一致功能测量的不同意预测介绍了一种新的不确定性措施。我们建议通过培训与任务特定网络的深度神经结构进行培训来估计这种不相似性。它允许该观察者致力于不确定性估计，并让任务特定网络进行预测。我们建议使用自我监督来培训观察者，这意味着我们的方法不需要额外的培训数据。我们通过实验展示我们所提出的方法在推理时间内比竞争方法较少，例如竞争方法。 McDropout，同时在Camvid数据集上提供更好的安全导向评估指标，特别是在眩光神器的情况下。

Focus on Local: Detecting Lane Marker from Bottom Up via Key Point
Authors Zhan Qu, Huan Jin, Yang Zhou, Zhen Yang, Wei Zhang
主流通道标记检测方法通过预测整体结构并通过后处理导出参数曲线来实现。复杂的车道线形状需要CNN的高维输出来模拟全局结构，这进一步增加了对模型容量和培训数据的需求。相反，车道标记的局部性具有有限的几何变化和空间覆盖。我们提出了一种新型车道标记检测溶液，孔胶，专注于局部模式建模并以底部的方式实现全局结构的预测。具体地，CNN模型具有两个单独的头部的低复杂性局部模式，第一一个是预测关键点的存在，第二个改进局部范围中的关键点的位置并关联相同车道线的关键点。任务的局部性与CNN中的特征的有限FOV一致，这反过来导致更稳定的训练和更好的泛化。另外，提出了一种效率取向解码算法以及贪婪的解码算法，其以忽略的性能降级成本实现36个运行时收益。两个解码器都将本地信息集成到车道标记的全局几何形状中。在没有复杂的网络架构设计的情况下，所提出的方法极大地优于公共数据集上的所有现有方法，同时同时实现最佳状态和实时处理。

ResT: An Efficient Transformer for Visual Recognition
Authors Qinglong Zhang, Yubin Yang
本文介绍了一个有效的多尺度视觉变压器，称为休息，可作为图像识别的通用骨干。与现有的变压器方法不同，采用标准变压器块以固定分辨率解决原始图像，我们的其余部分具有若干优点1，内置存储器有效的多头自我注意，这将通过简单的深度明智的卷积压缩存储器，并将交互投影在关注头尺寸时，在保持多头2的分集能力，2个位置编码被构造为空间注意，这更灵活，并且可以在没有插值或微调3的情况下使用任意尺寸的输入图像来解决，而不是在开始时的直接旋转3每个阶段，我们将贴片嵌入为重叠卷积操作的堆叠，在2D Reshaped令牌地图上使用步幅。我们全面验证了图像分类和下游任务。实验结果表明，拟议的休息可以优于最近的艺术骨干的最新状态，展示休息的潜力作为强骨架。代码和模型将公开可用

Deception Detection in Videos using the Facial Action Coding System
Authors Hammad Ud Din Ahmed, Usama Ijaz Bajwa, Fan Zhang, Muhammad Waqas Anwar
事实在各种情况下的决策方面是重要的，这就是为什么在被接受之前捕捉欺骗性信息是重要的。近期视频中的欺骗性检测已经为其各种现实生活应用程序获得了牵引力。在我们的方法中，我们使用我们使用的面部动作编码系统提取面部动作单元，该系统用作培训深层学习模型的参数。我们专门使用我们使用真实寿命试验数据集进行的长短短期内存LSTM，并提供了一个最佳面部的欺骗性检测方法之一。我们还使用真实的生命试验数据集，Silesian Deception DataSet和谎言欺骗数据集的Bag测试了Cross DataSet验证，该数据集尚未尝试欺骗检测系统。我们在使用相同的深度学习培训模型中单独和共同地测试所有数据集。结果表明，添加不同的数据集以训练恶化模型的准确性。其中一个主要原因是，这些数据集的性质非常不同地不同。

FReTAL: Generalizing Deepfake Detection using Knowledge Distillation and Representation Learning
Authors Minha Kim, Shahroz Tariq, Simon S. Woo
随着基于GaN的视频和图像操纵技术变得更加复杂和易于访问，迫切需要有效的DeepFake检测技术。此外，在过去几年中出现了各种DeepFake发电技术。虽然已经提出了许多DeepFake检测方法，但它们的性能遭受了新类型的DeepFake方法，它们没有充分培训。为了检测新类型的Deepfakes，该模型应该从额外的数据中学习，而不会失去关于Deepfakes灾难性遗忘的先验知识，特别是当新的Deewakes显着不同。在这项工作中，我们采用了代表学习rel和知识蒸馏kd范式来引入基于转移学习的特征表示转移自适应学习方法。我们使用罚款在最大限度地减少灾难性的遗忘时对新的DeepFake数据集进行域适配任务。我们的学生模型可以通过从预训练的教师模型中蒸馏知识并在域适应期间应用传输学习来快速适应新类型的DeepFake。通过对面部融资数据集的实验，我们证明载体优于域适应任务的所有基线，在低质量的深度磅上的准确性高达86.97。

Semi-supervised Anatomical Landmark Detection via Shape-regulated Self-training
Authors Runnan Chen, Yuexin Ma, Lingjie Liu, Nenglun Chen, Zhiming Cui, Guodong Wei, Wenping Wang
良好的注释的医学图像昂贵，有时甚至无法在一定程度上获取，妨碍地标检测准确性。半监督学习通过利用未标记的数据来了解解剖标志性的人口结构来减轻对大规模注释数据的依赖。全局形状约束是解剖标识的固有属性，为更一致的伪标记提供了有价值的指导，以先前的半监督方法忽略。在本文中，通过充分考虑全局形状约束，提出了一种用于半导体监控地标检测的模型不可知的形状的自我训练框架。具体而言，为了确保伪标签是可靠且一致的，基于PCA的形状模型调整伪标签并消除异常标签。一种新的区域注意力损失，使网络自动关注伪标签周围的结构一致区域。广泛的实验表明，我们的方法优于其他半监督方法，并在三个医学图像数据集中实现了显着的改进。此外，我们的框架是灵活的，可以用作集成到最具监控方法的插头和播放模块，以进一步提高性能。

MODISSA: a multipurpose platform for the prototypical realization of vehicle-related applications using optical sensors
Authors Bj rn Borgmann 1 and 2 , Volker Schatz 1 , Marcus Hammer 1 , Marcus Hebel 1 , Michael Arens 1 , Uwe Stilla 2 1 Fraunhofer IOSB, Ettlingen, Germany, 2 Technical University of Munich TUM , Munich, Germany
我们展示了当前的传感器的开发状态配备了Car Modissa，拥有Fraunhofer IOSB的传感器，可实现可配置的硬件评估和软件开发的可配置的实验平台，以及在移动映射和车辆相关的安全和保护方面的软件开发。 Modissa基于一辆面包车，在过去几年中连续配备各种光学传感器，并包含用于完整的原始数据采集，地理学，实时数据分析以及汽车显示屏上立即可视化的硬件。我们通过在三种不同应用范围内具有更深入的实验，展示了Modissa的能力。其他研究小组可以在设置自己的移动传感器系统时，特别是关于硬件和软件的选择，所谓的误差源以及获取的传感器数据的处理，以及所获取的传感器数据的处理。

2nd Place Solution for IJCAI-PRICAI 2020 3D AI Challenge: 3D Object Reconstruction from A Single Image
Authors Yichen Cao, Yufei Wei, Shichao Liu, Lin Xu
在本文中，我们向ITIJCAI Pricai 20 3D AI挑战从单个图像重建3D对象重建的解决方案。我们开发了一个Atlasnet的变体，消耗单个2D图像，并通过2D生成3D点云到3D映射。为了将性能推向对关键实施选择的限制和目前的指导，我们对分析了解码器设计和不同环境对归一化，投影和采样方法的影响进行了广泛的实验。我们的方法在最终轨道中实现了第二个位置，得分为70.88，倒角距离为36.87，平均f得分为59.18。我们方法的源代码将可用

Inertial Sensor Data To Image Encoding For Human Action Recognition
Authors Zeeshan Ahmad, Naimul Khan
卷积神经网络CNNS在计算机视野中是成功的深度学习模型。为了获得使用惯性传感器数据的人动作识别Har的CNN模型的最大优势，在本文中，我们使用4种类型的空间域方法来将惯性传感器数据转换为活动图像，然后在新颖的融合框架中使用。这四种类型的活动图像是信号图像Si，克朗族角场GAF图像，马尔可夫转换场MTF图像和复发绘图RP图像。此外，对于创建多模式融合框架并利用活动图像，我们通过用两个空间域滤波器PREWITT滤波器和高升压滤波器卷积来实现每种类型的活动图像多模码。 RESET18，CNN模型用于学习来自多模态的深度特征。从每个校准的最后一个汇集层提取学习特征，然后由基于规范相关的融合CCF融合，以提高人类动作识别的准确性。这些高度信息性功能被用作多牌支持向量机SVM的输入。在三个公开的惯性数据集上的实验结果显示了在本领域现有状态下提出的方法的优越性。

Empirical Study of Multi-Task Hourglass Model for Semantic Segmentation Task
Authors Darwin Saire, Ad n Ram rez Rivera
语义分割SS任务旨在通过在图像上的每个对象的像素级别标记来创建密集的分类。卷积神经网络CNN方法已被广泛使用，并在此任务中展出了最佳结果。然而，对结果的空间精度丧失是尚未解决的主要缺点。在这项工作中，我们建议通过使用边缘检测，语义轮廓和距离变换任务补充语义分段任务来使用多任务方法。我们建议通过共享共同的潜在空间，互补任务可以产生更强大的表示，可以增强语义标签。我们探讨了基于轮廓的任务对潜在空间的影响，以及它们对SS的最终结果的影响。我们通过改善现有技术的情况下，在没有任何细化后处理的情况下，展示了在城市景观，Camvid和Freiburg林数据集中的多任务设置中学习的有效性。

Learning to Stylize Novel Views
Authors Hsin Ping Huang, Hung Yu Tseng, Saurabh Saini, Maneesh Singh, Ming Hsuan Yang
我们解决3D场景程式化问题，从任意新颖视图生成一个场景的风格化图像，给定一组相同场景的图像和所需样式的参考图像作为输入。结合新型视图合成和程式化方法的直接解决方案导致模糊的结果或不符合不同视图的结果。我们提出了一种基于点云的3D场景风格化方法。首先，通过返回将图像功能投影到3D空间，构建点云。其次，我们开发点云聚合模块来收集3D场景的样式信息，然后用线性变换矩阵调制点云中的特征。最后，我们将转换功能投影为2D空间以获得新颖的视图。实验结果对真实世界场景的两个不同数据集验证，我们的方法产生一致的程式化的新型视图合成综合导致其他替代方法。

Unsupervised Domain Adaption of Object Detectors: A Survey
Authors Poojan Oza, Vishwanath A. Sindagi, Vibashan VS, Vishal M. Patel
深度学习的最新进展导致了对目标分类，语义分割和对象检测等各种计算机视觉应用的准确和有效模型的开发。然而，学习高度准确的模型依赖于具有大量注释图像的数据集的可用性。由于此，当在具有视觉上不同图像的标签稀缺数据集时，模型性能急剧下降。此问题通常被称为协变速转移或数据集偏差。域适应在学习标签稀缺目标数据集的分类器时利用相关域中的标记数据，通过利用来自相关域中标记的数据的域移位特征来解决此问题。通过无监督域适应来调整对象分类和语义分段模型的血清作品来调整对象分类和语义分段模型来标记稀缺目标数据集。考虑到对象检测是计算机愿景中的一个基本任务，最近的许多工作最近侧重于解决对象检测的域适应问题。在本文中，我们简要介绍了对象检测的域适应问题，并概述了迄今为止解决此问题的各种方法。此外，我们强调了提出此问题的策略和相关的缺点。随后，我们确定了无监督的域自适应检测问题的多个方面，这些检测问题对于该地区的未来研究最有前途。我们认为，本调查对于在计算机视觉，生物识别，生物识别，医学成像和自主导航领域的模式识别专家来说，通过向问题介绍，使其熟悉进度的当前状态，并提供它们具有未来研究的有希望的方向。

Learning Dynamic Graph Representation of Brain Connectome with Spatio-Temporal Attention
Authors Byung Hoon Kim, Jong Chul Ye, Jae Jin Kim
通过用功能性神经影像模态测量的时间相关程度，可以评估大脑区域之间的功能连接Fc。基于这些连接性构建网络的事实，基于曲线的分析方法的方法已经为人类大脑的功能提供了见解。图表神经网络的开发能够从图形结构数据学习表示的GNN，这导致了学习脑连接的图表表示的兴趣。虽然最近将GNN应用于FC网络的尝试已经显示了有希望的结果，但仍然存在常见的限制，因为它们通常不会包含随时间波动的FC网络的动态特性。另外，与静态FC方法相比，已经尝试使用动态FC作为GNN的输入的研究报告了性能的降低，并且没有提供时间解释性。在这里，我们提出了Stagin，一种用于学习动态图形表示的方法，以时空关注大脑连接。具体地，脑图的时间序列被输入到STAGIN以获得动态图形表示，而新颖的读数功能和变压器编码器分别提供空间和时间释放。 HCP休息和HCP任务数据集的实验表明了我们提出的方法的特殊表现。分析时空关注还提供了与神经科学知识的并发解释，这进一步验证了我们的方法。代码可用

FastRIFE: Optimization of Real-Time Intermediate Flow Estimation for Video Frame Interpolation
Authors Malwina Kubas, Grzegorz Sarwas
视频帧内插值的问题是图像处理领域的基本任务。正确增加录制中的帧数，同时保持平滑运动允许提高播放视频序列的质量，使得能够更有效地压缩并产生慢动作记录。本文提出了法式化算法，这是一种速度改进稻的实时中流估计模型。研究了新的方法，并与其他最近发表的算法进行了比较。所有源代码都可用

GuideMe: A Mobile Application based on Global Positioning System and Object Recognition Towards a Smart Tourist Guide
Authors Wadii Boulila, Anmar Abuhamdah, Maha Driss, Slim Kammoun, Jawad Ahmad
寻找有关旅游景点的信息，是人们在访问不同国家时面临的具有挑战性的问题。当人们来自不同国家，说不同的语言时，这个问题是强调的，来自社会的所有部分。在这种情况下，访客和朝圣者面临着在拜访圣地时找到合适的Doaas的重要问题。在本文中，我们提出了一个移动应用程序，帮助用户以简单且直观的方式找到适当的DoAAS。开发了三种不同的选择来实现这一目标1手动搜索，2个GPS位置来识别神圣的地方，因此是它们相应的DOAAS，以及通过分析访问者拍摄的图像来确定圣地的3个深度学习的DL方法。实验表现出拟议的移动应用程序的良好表现，为访问圣地提供适当的Doaas。

Recent advances and clinical applications of deep learning in medical image analysis
Authors Xuxin Chen, Ximin Wang, Ke Zhang, Roy Zhang, Kar Ming Fung, Theresa C. Thai, Kathleen Moore, Robert S. Mannel, Hong Liu, Bin Zheng, Yuchen Qiu
深度学习已成为计算机愿景中的主流技术，并对开发新的医学图像处理算法进行广泛的研究兴趣以支持疾病检测和诊断。与传统机器学习技术相比，深度学习的主要优点是模型可以通过层次模型架构自动识别和识别代表特征，同时避免手工制作功能的艰苦发展。在本文中，我们审查和总结了200多篇公布的文件，以全面概述应用深度学习方法在各种医学图像分析任务中。特别是，我们强调了艺术状态的最新进展和贡献无监督和半监督医学图像的深度学习，这些图像基于不同的应用场景，包括病变分类，分段，检测和图像登记。此外，我们还讨论了主要的技术挑战，并提出了未来的研究工作中可能的解决方案。

On Hamilton-Jacobi PDEs and image denoising models with certain non-additive noise
Authors J r me Darbon, Tingwei Meng, Elena Resmerita
我们考虑将标志性问题的图像去噪为变分问题。众所周知，当噪声模型是添加剂时，汉密尔顿雅各比PDES管理这种优化问题的解决方案。在这项工作中，我们解决了某些非附加噪声模型，并表明它们也与汉密尔顿雅各比PDE相关。这些发现允许我们建立添加剂与非加上噪声成像模型之间的新连接。利用这些连接，可以通过将凸优化算法应用于添加到附加噪声的等效凸模型来解决非加性噪声的一些非凸模型。提供了几种数值结果，用于脱色泊松噪声或乘法噪声问题。

PTNet: A High-Resolution Infant MRI Synthesizer Based on Transformer
Authors Xuzhe Zhang, Xinzi He, Jia Guo, Nabil Ettehadi, Natalie Aw, David Semanek, Jonathan Posner, Andrew Laine, Yun Wang
磁共振成像MRI无侵入地提供了关于人类脑结构如何跨生命阶段发展的关键信息。发育科学家在神经发育的前几年特别感兴趣。尽管MRI收集和成人分析成功，但研究人员挑战，从开发婴儿收集高质量的多媒体MRIS，主要是由于其不规则的睡眠模式，关注有限，无法遵循仍然存在的指示，以及缺乏分析方法。这些挑战往往导致可用数据的显着减少。为了解决这个问题，研究人员通过合成现实的MRIS探索了各种解决方案来替换损坏的扫描。其中，基于卷积神经网络CNN的生成对抗网络已经证明了有希望的结果，实现了最新的性能。然而，对抗性培训不稳定，可能需要仔细调整正规化术语来稳定培训。在这项研究中，我们推出了一种新的MRI综合框架金字塔变压器网PTNet。 PTNET由变压器层，跳过连接和多尺度金字塔表示组成。与最广泛使用的基于CNN的条件GaN模型相比即PIX2PIX和PIX2PIXHD，我们的型号在合成精度和模型尺寸方面显示出卓越的性能。值得注意的是，PTNET不需要任何类型的对抗性训练，并且可以使用简单的平均平方误差容易地培训。

Learning Relation Alignment for Calibrated Cross-modal Retrieval
Authors Shuhuai Ren, Junyang Lin, Guangxiang Zhao, Rui Men, An Yang, Jingren Zhou, Xu Sun, Hongxia Yang
尽管大规模的多模式预训练方法成就，但跨模型检索，例如图像文本检索，仍然是一个具有挑战性的任务。为了弥合两种方式之间的语义差距，之前的研究主要集中在物体级别的字区域对齐，缺乏这些词语之间的语言关系与区域之间的视觉关系之间的匹配。忽视这种关系一致性损害了图像文本对的上下文化表示，并阻碍了模型性能和解释性。在本文中，我们首先提出了一种新颖的公制，模态自我注意距离ISD，通过测量语言和视觉关系之间的语义距离来量化关系一致性。作为响应，我们在模态自身关节IAI上呈现模型对齐，正则训练方法，以优化ISD，并通过模态对准相互校准来自两个方式的模态自身关节。 IAIS符号器通过相当多的边距，提高了Flickr30k和MS Coco Datasets上现行模型的性能，这表明了我们的方法的优越性。

A systematic review of transfer learning based approaches for diabetic retinopathy detection
Authors Burcu Oltu, B ra K bra Karaca, Hamit Erdem, Atilla zg r
糖尿病病例和相关糖尿病视网膜病变博士在近代以惊人的速度增加。早期检测博士是一个重要问题，因为它可能导致晚期阶段的永久失明。在过去的二十年中，博士检测中已经应用了许多不同的方法。审查学术文献表明，深度神经网络DNN已成为DR检测的最优选方法。在这些DNN方法中，卷积神经网络CNN模型是医学图像分类领域中最使用的。设计新的CNN架构是一种繁琐且耗时的方法。此外，培训巨大的参数也是一项艰巨的任务。由于这个原因，近年来，使用预先训练的模型来说，由于转移学习方法，而不是从头开始训练CNNS。因此，本研究作为审查重点关注DNN和基于DR检测的基于DR检测的应用，考虑到2015年和2020年之间的38个出版物。公布的论文总结了使用9个数字和10个表格来汇总，提供约22个预训练的CNN模型的信息，12博士数据集和标准性能指标。

One-shot Learning with Absolute Generalization
Authors Hao Su
建议一个拍摄学习，以基于来自每个模式的标记样本的一个标记的样本来制作普试分类器。然而，很少有研究人员考虑数据集本身是否支持一次拍摄学习。在本文中，我们提出了一套定义来解释什么样的数据集可以支持一个拍摄学习并提出概念绝对概念。基于这些定义，我们提出了一种构建绝对概括的分类器的方法。所提出的方法将两个样本连接为新的单个样本，并将分类问题转换为身份识别问题或相似度度量问题。实验表明，所提出的方法优于一个射门学习数据集和人工数据集的基线。

Self-supervised Detransformation Autoencoder for Representation Learning in Open Set Recognition
Authors Jingyun Jia, Philip K. Chan
开放式识别OSR的目标是学习一个分类器，可以在准确分类已知类时拒绝未知样本。在本文中，我们提出了一种自我监督方法，用于OSR问题的自我监督方法，Detralsformation AutoEncoder Dtae。该提出的方法与输入数据的转换不变的学习表示接合。在若干标准图像数据集上的实验表明，预培训过程显着提高了OSR任务中的模型性能。同时，我们提出的自我监督方法在检测未知课程和分类已知类别方面取得了重大的提高。此外，我们的分析表明，DTAE可以产生比RotNet更少的目标类信息和更少的转换信息的表示。

ECG Heart-beat Classification Using Multimodal Image Fusion
Authors Zeeshan Ahmad, Anika Tabassum, Naimul Khan, Ling Guan
在本文中，我们提出了一种用于ECG心跳分类的新型图像融合模型IFM，以克服现有机器学习技术的弱点，依赖于手动特征提取或直接利用1D原始ECG信号。在IFM的输入时，我们首先使用克朗尼亚角场GAF将心脏的心跳转换为三个不同的图像，重复绘图RP和Markov转换场MTF，然后融合这些图像以创建单个成像模态。我们使用AlexNet进行特征提取和分类，从而采用结束以结束深入学习。我们根据AAMI EC57标准和对心肌梗死MI分类的PTB诊断数据集进行五种不同心律失常的物理仪MIT BIH Dataset的实验。我们在预测准确性，精度和召回方面实现了艺术的状态。

Training With Data Dependent Dynamic Learning Rates
Authors Shreyas Saxena, Nidhi Vyas, Dennis DeCoste
最近，已经提出了许多SGD的第一和二阶变体，以促进对深神经网络DNN的训练。这些工程的共同限制源于它们在数据集中存在的所有实例中使用相同的学习速率。在本假设下，该设置广泛采用，每个实例的损耗函数在自然界中类似，因此可以使用共同的学习率。在这项工作中，我们放宽了这一假设，并提出了一种优化框架，其跨实例丢失函数特征的差异。更具体地，我们的优化器为数据集中存在的每个实例学习动态学习速率。学习每个实例的动态学习速率允许我们的优化框架专注于优化期间培训数据的不同模式。当应用于图像分类任务时，在不同的CNN架构上，学习动态学习率导致标准优化器的一致收益。当应用于包含损坏实例的数据集时，我们的框架会降低嘈杂情况下的学习率，并改善了最先进的状态。最后，我们表明我们的优化框架可用于对已知的目标数据分布的机器学习模型的个性化。

Classification and Uncertainty Quantification of Corrupted Data using Semi-Supervised Autoencoders
Authors Philipp Joppich, Sebastian Dorn, Oliver De Candido, Wolfgang Utschick, Jakob Knollm ller
参数和非参数分类器通常必须处理现实世界数据，其中损坏噪声，闭塞和模糊是不可避免的重大挑战。我们提出了一种概率的方法来分类强烈损坏的数据并量化不确定性，尽管只有未腐败的数据训练，但才能培训。在未损坏的数据上培训的半监督AutoEncoder是底层体系结构。我们使用解码部分作为用于现实数据的生成模型，并通过卷积，掩蔽和加性高斯噪声扩展它来描述缺陷。这在潜在的未损坏基准的最佳潜在空间激活方面构成了统计推理任务。我们大致用公制高斯变分推理MGVI解决了这个问题。 AutoEncoder S潜像的监督允许我们直接在不确定性下直接对数据进行分类，具有统计上推断的潜在空间激活。此外，我们证明了模型不确定性强烈取决于分类是否正确或错误，为分类的统计LIE检测器设置基础。独立于此，我们表明生成模型可以通过解码推断的潜空间激活来最佳地恢复未腐败的数据。

Type III solar radio burst detection and classification: A deep learning approach
Authors Jeremiah Scully, Ronan Flynn, Eoin Carley, Peter Gallagher, Mark Daly
在动态光谱中通常观察到太阳能无线电突发SRB，并具有五个主要光谱类，根据其频率和时间的形状和范围标记为型型。由于其复杂的表征，太阳能无线电物理学的挑战是这种无线电突发的自动检测和分类。由于高级无线电望远镜（如低频阵列，LOFAR）产生的大数据速率，SRBS的分类已成为近年来的基础。作为检测图像中的预定参数形状的手段，本领域的当前状态实现了Hough或Radon变换。这些算法可实现高达84个精度，具体取决于归类的无线电突发的类型。其他技术包括依赖于恒定的FalseAlarm速率检测的程序，其基本上使用动态光谱中的De Noising和自适应阈值来检测无线电突发。它适用于各种不同类型的无线电突发，并达到最多70种的精度。在这项研究中，我们正在引入一个名为您的方法，只为v2 yolov2进行太阳能无线电突发分类。通过使用III型仿真方法，我们可以在ACCU中实时将算法分类为实时型III太阳能无线电突发

Chinese Abs From Machine Translation

Papers from arxiv.org

更多精彩请移步主页