AI视野·今日CS.CV 计算机视觉论文速览
Thu, 17 Jun 2021
Totally 66 papers
👉上期速览✈更多精彩请移步主页
Daily Computer Vision Papers
End-to-End Semi-Supervised Object Detection with Soft Teacher Authors Mengde Xu, Zheng Zhang, Han Hu, Jianfeng Wang, Lijuan Wang, Fangyun Wei, Xiang Bai, Zicheng Liu 本文呈现结束以结束半监控物体检测方法,与先前的更复杂的多阶段方法相比。结束于课程课程逐步改善课程期间的伪标签品质,以及越来越准确的伪标签,反过来受益对象检测训练。我们还提出了在本框架内的两个简单但有效的技术是一个软的教师机制,每个未标记的边界框的分类丢失由教师网络产生的分类分数来称量,通过教师网络A盒抖动方法选择可靠的伪框来学习框回归。在Coco基准测试中,所提出的方法在各种标记比下的大边缘优于前面的方法,即1,5和10。此外,当标记数据的数量相对较大时,我们的方法也证明也很好地表现。例如,它可以改进40.9地图基线检测器,使用3.6地图设置的全COCO培训,通过利用123K未标记的可可映射来达到44.5地图。在最先进的基于物体探测器的对象检测器58.9上映射上的测试开发,它仍然可以显着提高检测精度1.5映射,达到60.4地图,并提高实例分段精度1.2映射,达到52.4地图,推动了新的最先进的。 |
Smoothing the Disentangled Latent Style Space for Unsupervised Image-to-Image Translation Authors Yahui Liu, Enver Sangineto, Yajing Chen, Linchao Bao, Haoxian Zhang, Nicu Sebe, Bruno Lepri, Wei Wang, Marco De Nadai 图像到图像I2I多域转换模型通常也使用其语义插值结果的质量进行评估。然而,本领域模型的状态经常显示在插值期间图像外观的突然变化,并且通常在域的插值中执行不良。在本文中,我们提出了一种基于三个特定损失的新培训协议,帮助翻译网络来学习平滑和解散的潜在风格空间,其中1个内域内和域间插值都对应于所生成的图像和2内容的逐渐变化在翻译期间,源图像更好地保存。此外,我们提出了一种新的评估度量来衡量I2I翻译模型的潜在风格空间的平滑度。该方法可以插入现有的翻译方法,我们对不同数据集的广泛实验表明它可以显着提高所生成的图像的质量和内插的渐变性。 |
Cascading Modular Network (CAM-Net) for Multimodal Image Synthesis Authors Shichong Peng, Alireza Moazeni, Ke Li 近年来,GAN等深层生成模型在有条件的形象综合方面已经推动了令人印象深刻的进步。由于模式崩溃的问题,持续存在挑战,从相同的输入图像生成不同版本的输出图像,因为每个输入图像仅给出一个地理输出图像,所以仅建模一个条件分布的一种模式。在本文中,我们专注于多模式条件图像合成的这个问题,并建立在最近提出的隐式最大似然估计IMLE技术。基于IMLE的方法需要不同的架构,以实现不同的任务,这限制了它们的适用性,并且缺乏生成的图像中的细节。我们提出凸轮网,统一的架构,可以应用于广泛的任务。另外,与基线相比,它能够产生令人信服的高频细节,从而实现将FRECHET成立距离FID的减少到45.3。 |
Evolving Image Compositions for Feature Representation Learning Authors Paola Cascante Bonilla, Arshdeep Sekhon, Yanjun Qi, Vicente Ordonez 用于视觉识别的卷积神经网络需要大量的培训样本,通常从数据增强中受益。本文提出了patchmix,一种数据增强方法,通过在网格中的图像与图案的网格对的成对图像中构思斑块来创建新样本。这些新的样本地面真理标签被设置为与每个图像的补丁数量成比例。然后,我们在修补程序级别添加一组额外的损失以正规化,并鼓励修补程序和图像级别的良好表示。使用Patchmix在ImageNet上培训的Reset50模型在各种基准中展示了卓越的转移学习能力。虽然PACKMIX可以依赖于随机配对和随机网格,如混合模式,但我们探索进化搜索作为指导策略,以便共同发现像图案和图像配对的最佳网格。为此目的,我们构思了一种健身功能,可以绕过需要重新培训模型来评估每个选择的需要。通过这种方式,通过显着的边缘,PACKMIX优于CIFAR 10 1.91,CIFAR 100 5.31,CIFAR 100 5.31,微小ImageNet 3.52和Imagenet 1.16上的基础模型,也优于前一种最先进的成对增强策略。 |
Invertible Attention Authors Jiajun Zha, Yiran Zhong, Jing Zhang, Liang Zheng, Richard Hartley 被证明的注意力是捕获长距离依赖性的有效机制。但是,到目前为止它还没有部署在可逆的网络中。这是由于为了使网络可逆性,网络内的每个组件都需要是一个怪异的变换,但是正常的注意块不是。在本文中,我们提出了可靠的关注,可以插入现有的可逆模型。在数学上和实验证明,可以通过仔细限制其嘴唇恒定来实现注意模型的可逆性。我们通过3个流行的数据集CiFar 10,SVHN和Celeba来验证我们可靠关注的可靠关注的可逆性。我们还表明,与对密集预测任务的正常不可逆关注相比,我们可靠的关注达到了类似的性能。 |
The Oxford Road Boundaries Dataset Authors Tarlan Suleymanov, Matthew Gadd, Daniele De Martini, Paul Newman 在本文中,我们介绍了牛津道路边界数据集,专为培训和测试机器学习的道路边界检测和推理方法。我们的手从牛津机器人数据集中发出了10公里长的两个,并从其他几千个进一步的例子与半注释的道路边界面具。为了以这种方式提高培训样本的数量,我们使用基于视觉的本地用户将注释的数据集项目标签投影到不同时间和天气条件的其他遍历。结果,我们释放了62605个标记的样品,其中凝固47639个样品。这些样本中的每一个都包含左镜头和右镜头的原始和分类掩模。我们的数据包含各种情景集,如直路,停放的汽车,接合量等。用于操纵标记数据的下载和工具的文件 |
Differentiable Diffusion for Dense Depth Estimation from Multi-view Images Authors Numair Khan, Min H. Kim, James Tompkin 我们通过优化稀疏点集,提出了一种估计密集深度的方法,使得它们进入深度图的扩散最小化来自RGB监控的多视图再分注意误差。我们通过差分分裂的损耗优化点位置,深度和重量,该差分分裂,模型作为具有分析透射率的高斯人的点。此外,我们开发了一种有效的优化例程,可以同时优化复杂场景重建所需的50k点。我们使用地面真实数据验证我们的日常,并显示高重建质量。然后,我们通过自我监督将此应用于光场和更广泛的基线图像,并显示从不准确的稀疏点扩散的深度映射的平均值和异常值错误的改进。最后,我们将定性和定量结果与图像处理和深度学习方法进行比较。 |
Structure First Detail Next: Image Inpainting with Pyramid Generator Authors Shuyi Qu, Zhenxing Niu, Kaizhu Huang, Jianke Zhu, Matan Protter, Gadi Zimerman, Yinghui Xu 最近的深层生成模型在图像染色中取得了有希望的表现。然而,由于其固有的频谱偏压,神经网络产生现实图像细节和纹理仍然非常具有挑战性。通过我们对艺术家如何工作的理解,我们建议采用结构首先详细说明图像修复的下一个工作流程。为此,我们建议通过堆叠多个子发生器来构建金字塔发生器,其中较低层子发生器专注于恢复图像结构,而较高的层子发生器强调图像细节。鉴于输入图像,通过以自下而上的方式通过整个金字塔逐渐恢复。特别是,我们的方法具有逐渐增加的孔尺寸的学习方案,其允许它恢复大孔图像。此外,我们的方法可以充分利用高分辨率图像学习的好处,因此适用于高分辨率图像染色。基准数据集的广泛实验结果已经验证了与现有方法的方法的有效性。 |
Toward Robotic Weed Control: Detection of Nutsedge Weed in Bermudagrass Turf Using Inaccurate and Insufficient Training Data Authors Shuangyu Xie, Chengsong Hu, Muthukumar Bagavathiannan, Dezhen Song 为了实现机器人杂草控制,我们开发算法以检测来自百慕大草皮的Nutsedge杂草。由于杂草和背景草皮之间的相似性,手动数据标签昂贵并且容易出错。因此,直接应用对象检测的深度学习方法不能产生令人满意的结果。在实例检测方法上构建I.E. Mask R CNN,我们将合成数据与原始数据组合到培训网络。我们提出了一种算法来生成高保真合成数据,采用不同的注释等级来降低标记成本。此外,我们构建基于Nutsege骨架的概率地图NSPM作为神经网络输入,以减少对像素明智的贴标的依赖。我们还修改了从跨熵的损失功能到Kullback Leibler发散,这在标签过程中适应不确定性。我们实施了所提出的算法,并将其与较快的R CNN和MAXIS R CNN进行比较。结果表明,我们的设计可以有效地克服不精确和不足的训练样本问题的影响,并且显着优于较快的R CNN对应物,假负率仅为0.4。特别是,如果与原始掩模R CNN方法相比,我们的方法也通过95减少标记时间,同时实现更好的性能。 |
Over-and-Under Complete Convolutional RNN for MRI Reconstruction Authors Pengfei Guo, Jeya Maria Jose Valanarasu, Puyang Wang, Jinyuan Zhou, Shanshan Jiang, Vishal M. Patel 由于采样操作引入的各种伪像,重建来自向外数据的磁共振MR图像是一个具有挑战性的问题。最近的基于深度学习的MR图像重建方法通常利用通用自动编码器架构,该架构在更深层的初始层和高电平特征处捕获低级功能。这些网络侧重于全局特征,这可能不是重建完全采样图像的最佳状态。在本文中,我们提出了完全和下的完整透露经常性神经网络OUCR,其包括过度顺从的卷积卷积经常性神经网络CRNN。超越普遍的分支通过限制网络的接受领域,特别注意学习本地结构。将其与下替换分支结合起来导致网络,该网络更加关注低级功能,而不会在全局结构上丢失。两个数据集的广泛实验表明,该方法通过较少数量的培训参数实现了对压缩感测和流行深度学习的方法的显着改进。我们的代码可供选择 |
X-MAN: Explaining multiple sources of anomalies in video Authors Stanislaw Szymanowicz, James Charles, Roberto Cipolla 我们的目标是在视频中检测到异常,同时也会自动解释探测器的响应背后的原因。在实际意义上,解释性对于这项任务至关重要,因为对异常所需的反应取决于其性质和严重程度。然而,基于深度神经网络的大多数领先方法都不是可解释的,并隐藏在未解释的特征表示中的决策过程。为了解决这个问题,我们提出以下贡献1我们展示了如何构建可解释的特征表示,适用于检测具有最新性能的异常,2我们提出可解释的概率异常检测器,其可以描述其背后的原因高级概念,3我们是第一个直接考虑异常检测的对象交互,4我们提出了一种新的任务,可以解释异常,并释放大型数据集以评估此任务的方法。我们的方法与公共数据集的最先进的技术竞争,同时还基于对象和互动提供异常解释。 |
JRDB-Act: A Large-scale Multi-modal Dataset for Spatio-temporal Action, Social Group and Activity Detection Authors Mahsa Ehsanpour, Fatemeh Saleh, Silvio Savarese, Ian Reid, Hamid Rezatofighi 大规模视频操作的可用性了解数据集在解释包含人员的视觉场景的解释方面有助于进步。然而,学习在不受约束的现实世界环境中识别人类活动,具有潜在的高度不平衡和长尾的分布数据仍然是一个重大挑战,而不是由于缺乏反思大规模数据集。大多数现有的大规模数据集是从特定或约束环境中收集的,例如,厨房或房间,或YouTube等视频共享平台。在本文中,我们介绍了JRDB ACT,一个多模态数据集,作为现有JRDB的扩展,由ASocial Mobile Manipulator捕获,并反映了大学校园环境中的人类日常生活行为的真正分布。 JRDB ACT浓密地用原子动作注释,包括超过2.8M的动作标签,构成了大规模的时空时间动作检测数据集。每个人的边界框用一个基于一个姿势的动作标签和基于多个可选的交互的动作标签标记。此外,JRDB法案伴随着社会团体识别注释,有助于根据其现场的互动来分组个人的任务,以推断每个社会集团的社会活动共同活动。 |
Metamorphic image registration using a semi-Lagrangian scheme Authors Anton Fran ois, Pietro Gori, Joan Glaun s 在本文中,我们提出了一种实施大变形扩散型度量映射LDDMM和使用半拉格朗日方案进行测距射击的变形图像登记。我们建议将这两个问题解决作为提供单一和统一成本函数的不精确匹配。我们证明,对于图像登记,使用半拉格朗日方案比标准欧拉方案更稳定。我们的GPU实现基于Pytorch,这非常简化并加速了计算的强大自动化引擎。它将自由地提供 |
SiamAPN++: Siamese Attentional Aggregation Network for Real-Time UAV Tracking Authors Ziang Cao, Changhong Fu, Junjie Ye, Bowen Li, Yiming Li 最近,由于其艺术SOTA性能的状态,暹罗基础的方法已经从多态跟踪方法中脱颖而出。尽管如此,由于无人机跟踪中的各种特殊挑战,Texit. ,严重的闭塞和快速运动,基于最现有的暹罗的跟踪器几乎没有以高效率结合出优越的性能。在这篇文章中,提出了一部新颖的暹罗跟踪器SiamApn,以实时无人机跟踪。由于注意机制,注意力聚集网络AAN是用自我和交叉AAN进行的,提高了特征的表达能力最终。前AAN聚集并通过空间和通道尺寸来模拟单个特征映射的自我语义相互依赖性。后者旨在聚合不同语义特征的交叉相互依赖性,包括锚的位置信息。此外,提出了锚点建议网络的双重特征版本来提高提出锚点的鲁棒性,从而提高了具有各种尺度的物体的感知能力。进行了两个众所周知的权威基准测试的实验,其中SiamApn优于其基线SiamApn和其他SOTA跟踪器。此外,现实世界测试在典型的嵌入式平台上展示了SiamApn实现了具有实时速度的追踪结果。 |
Contrastive Learning with Continuous Proxy Meta-Data for 3D MRI Classification Authors Benoit Dufumier, Pietro Gori, Julie Victor, Antoine Grigis, Michel Wessa, Paolo Brambilla, Pauline Favre, Mircea Polosan, Colm McDonald, Camille Marie Piguet, Edouard Duchesnay 具有深度神经网络的传统监督学习需要巨大的标记数据来收敛到良好的解决方案。对于3D医学图像,为特定病理学构建大型同质注释数据集通常是不切实际的。自我监督方法提供了一种以无监督方式与神经网络学习图像的表现方式。特别是,通过几乎匹配了在视觉任务上的完全监督CNN的性能,对比学习已经表现出巨大的承诺。尽管如此,这种方法不利用可用的元数据,例如参与者年龄,作为先验知识。在这里,我们建议利用对比学习框架中的连续代理元数据,通过引入称为Y意识的InfoNce损失的新损失。具体而言,假设它们共享类似的辨别语义特征,通过添加具有类似的代理元数据的更积极的示例来改善预训练期间的正抽样。在我们的方法中,3D CNN模型预先培训了10个4个多网站健康脑MRI扫描可以提取三种分类任务精神分裂症,双极诊断和阿尔茨海默氏型检测的相关特征。微调时,它还优于从这些任务的划痕培训的3D CNN,以及艺术自我监督方法的状态。我们的代码在这里公开提供。 |
Unsupervised Person Re-identification via Multi-Label Prediction and Classification based on Graph-Structural Insight Authors Jongmin Yu, Hyeontaek Oh 本文通过基于图形结构洞察力,使用多标签预测和分类来解决无监督的人重新识别。我们的方法从人物图像中提取特征,并生成一个图形,该图分别由它们的特征和成对相似性分别分别作为节点和边缘组成。基于该图,所提出的基于图形结构的多标签预测GSMLP方法通过考虑每个节点的成对相似性和邻接节点分布来预测多标签。 GSMLP创建的多个标签应用于所提出的选择性多标签分类SMLC丢失。 SMLC集成了硬样本挖掘方案和多标签分类。建议的GSMLP和SMLC提高了无监督者RE ID的性能,而无需任何预先标记的数据集。实验结果通过制定现有技术的性能来证明所提出的方法在无监督的人物RE ID中的优越性。本文的源代码公开可用 |
Robustness of Object Detectors in Degrading Weather Conditions Authors Muhammad Jehanzeb Mirza, Cornelius Buerkle, Julio Jarquin, Michael Opitz, Fabian Oboril, Kay Ulrich Scholl, Horst Bischof 用于自主驾驶的最先进的对象检测系统实现明确的天气条件的有希望的结果。然而,这种自主安全关键系统也需要在降级的天气条件下工作,例如雨,雾和雪。不幸的是,大多数方法只在基蒂数据集上评估,只有明确的天气场景。在本文中,我们解决了这个问题,并对在真实天气条件下捕获的数据上的单个和双模架构中的最详细评估中的一个最详细的评估。我们分析了这些架构在有辱人格的天气条件下的性能下降。我们表明,在清澈的天气中表现出良好的物体检测架构可能无法处理有利的天气条件。我们还对双重方式架构进行消融研究,并展示了他们的局限性。 |
Shape from Blur: Recovering Textured 3D Shape and Motion of Fast Moving Objects Authors Denys Rozumnyi, Martin R. Oswald, Vittorio Ferrari, Marc Pollefeys 我们解决了从单个运动模糊图像中共同重建了对象的3D形状,纹理和运动的小说任务。虽然以前的方法仅在2D图像域中解决了去误害问题,但我们所提出的3D域中的所有对象属性的严格建模使得可以正确描述任意对象运动。这导致显着更好的图像分解和更清晰的脱棕色结果。我们模拟了运动模糊物体的观察外观作为背景和3D对象的组合,具有恒定的平移和旋转。我们的方法通过具有合适的普通方案来最小化在重建输入图像的损失。这使得能够估计具有高保真度的模糊物体的纹理3D网格。我们的方法在快速移动物体去纹的几个基准上显着优于竞争方法。定性结果表明,重建的3D网格产生了高质量的时间超分辨率和去掩盖物体的新颖视图。 |
Toward Affective XAI: Facial Affect Analysis for Understanding Explainable Human-AI Interactions Authors Luke Guerdan, Alex Raymond, Hatice Gunes 由于机器学习方法越来越多地用于增强人工决策,可解释的人工智能XAI研究已经探索了向人类传达系统行为的方法。然而,这些方法通常无法解释人类的情绪反应,因为它们与解释互动。面部影响分析检查人类的情感情绪,是一个有希望的镜片,了解用户如何与解释进行搞。因此,在这项工作中,我们的目标是在人们与XAI接口交互时,我们的目标是识别哪个面部影响特征,并且2开发用于将面部影响信号链接与参与者使用解释的多任务功能嵌入。我们的分析和结果表明,当参与者未能使用解释时,面部AU1和AU4和唤醒的发生和值都会提高。这表明应将面部影响分析纳入XAI,以个性化对个人交互方式的解释,并根据所执行的任务的难度来调整解释。 |
Unsupervised Domain Adaptation with Variational Approximation for Cardiac Segmentation Authors Fuping Wu, Xiahai Zhuang 无监督的域适应对于医学图像分割非常有用。特别地,当目标图像的地面真理不可用时,域间适应可以通过利用来自其他方式的现有标记图像来训练目标特定模型。据报道的大多数作品都将源域和目标域的图像映射到共同的潜在特征空间,然后通过直接最小化差异度量来明确地减少差异。在这项工作中,我们提出了一个新的框架,其中两个域的潜在特征朝向普通和参数化的变分形式驱动,其条件分布给出图像是高斯的。这是由基于变分自由型器VAE的两个网络和该变分近似的正则化实现的。两个VAE,每个域都包含分割模块,其中源分割以监督方式训练,而目标人员则无监视。我们使用两个心脏分割任务,即横向模态CT和MR全心脏分割和交叉序列心MR分段验证了所提出的域适应方法。结果表明,与本领域技术方法相比,该方法实现了更好的准确性,并表现出心脏细分的良好潜力。此外,拟议的明确规则化显示有效且有效地缩小域之间的分布差距,这对于无监督的域适应有用。我们的代码和数据已通过已发布 |
Learning to Disentangle GAN Fingerprint for Fake Image Attribution Authors Tianyun Yang, Juan Cao, Qiang Sheng, Lei Li, Jiaqi Ji, Xirong Li, Sheng Tang 生成模型的快速速度为恶意人士和数字版权侵权等视觉取证的新威胁带来了新的威胁,这促进了虚假图像归属的工作。现有的伪造图像归属的工作主要依赖于直接分类框架。如果没有额外的监督,则提取的特征可以包括许多内容相关组件并概括。同时,如何获得可解释的GaN指纹来解释决定仍然是一个开放的问题。采用多项任务框架,我们提出了一个GaN指纹解解网GFD网,同时解散来自GaN生成的图像的指纹,并产生假图像归因的内容无关表示。提供了一系列约束,以保证指纹的稳定性和可辨别性,这反过来有助于内容无关的特征提取。此外,我们对GaN指纹进行综合分析,为GaN指纹的特性提供了一些关于GaN架构中指纹的因素的线索。实验表明,我们的GFD网络在封闭世界和开放世界检测中实现了卓越的假图像归因性能。我们还将我们的方法应用于二进制假图像检测,并在看不见的发电机上表现出显着的泛化能力。 |
AtrialGeneral: Domain Generalization for Left Atrial Segmentation of Multi-Center LGE MRIs Authors Lei Li, Veronika A. Zimmer, Julia A. Schnabel, Xiahai Zhuang 晚期钆增强磁共振成像LGE MRI的左心房LA分段是规划心房颤动治疗所需的关键步骤。然而,由于图像质量差,La形状的高度差,La形状和洛基边界不明显,来自LGE MRI的自动LA分割仍然具有挑战性。虽然基于深度学习的方法可以提供有前途的LA分段结果,但它们通常概括到看不见的域名,例如来自不同扫描仪和或站点的数据。在这项工作中,我们从不同的中心收集210 LGE MRI,具有不同的图像质量。为了评估LA分段任务上模型的域泛化能力,我们为来自多中心LGE MRI的LA分段采用了四个常用的语义分段网络。此外,我们研究了三个域泛化策略,即直方图匹配,基于互信的表示,以及随机样式传输,其中证明了一个简单的直方图匹配是最有效的。 |
2nd Place Solution for Waymo Open Dataset Challenge - Real-time 2D Object Detection Authors Yueming Zhang, Xiaolin Song, Bing Bai, Tengfei Xing, Chao Liu, Xin Gao, Zhihui Wang, Yawei Wen, Haojin Liao, Guoshan Zhang, Pengfei Xu 在自主驾驶系统中,必须识别从图像的车辆,行人和骑自行车者。除了预测的高精度外,实时运行的要求为卷积网络模型带来了新的挑战。在本报告中,我们介绍了一种实时方法来检测图像中的2D对象。我们聚合了几个流行的一个舞台对象探测器并独立培训了各种输入策略的型号,以产生更好的性能,以便对每个类别的精确多尺度检测,特别是对于小型物体。对于模型加速来说,我们利用了规范来优化了我们检测管道的推理时间。如排行榜所示,我们所提出的检测框架在实时2D检测跟踪数据集挑战的实时检测轨道中排名第2个,其中75.00 L1 MAP和69.72 L2地图,而我们的框架在NVIDIA Tesla上实现了45.8ms帧的延迟V100 GPU。 |
Shuffle Transformer with Feature Alignment for Video Face Parsing Authors Rui Zhang, Yang Han, Zilong Huang, Pei Cheng, Guozhong Luo, Gang Yu, Bin Fu 这是一份简短的技术报告,介绍了TCParser的解决方案,用于在CVPR 2021上的上下文中的第三个人的短路面临解析轨道的短视脸部解析轨道。在CVPR 2021中的挑战中,我们介绍了一个强大的骨干,这是基于跨窗的洗牌变压器提出准确的面部解析表示。为了进一步获取更精细的分段结果,尤其是在边缘上,我们介绍了一个特征对齐聚合FAA模块。它可以有效地缓解由多分辨率特征聚合引起的特征错位问题。从更强的骨干和更好的特征聚合中受益,所提出的方法在上下文中的第三个人的短视面解析轨道中获得了86.9519分数。排名第一的地方。 |
Structured DropConnect for Uncertainty Inference in Image Classification Authors Wenqing Zheng, Jiyang Xie, Weidong Liu, Zhanyu Ma 随着网络结构的复杂性,不确定性推理已成为提高人工智能系统的分类准确性的重要任务。对于图像分类任务,我们提出了一个结构化的DropConnect SDC框架,以通过Dirichlet分布模拟深神经网络的输出。我们在训练期间介绍了完全连接层的重量的DropConnect策略。在测试中,我们将网络拆分为多个子网络,然后通过将其瞬间与这些子网络输出的均值和方差匹配来模拟Dirichlet分布。估计的Dirichlet分布的熵最终用于不确定的推理。在本文中,该框架在Lenet 5和VGG 16模型上实现,用于错误分类检测和在MNIST和CIFAR 10数据集上的分布检测。实验结果表明,所提出的SDC的性能可以与其他不确定性推断方法相媲美。此外,SDC适用于不同的网络结构,具有某些概括能力和研究前景。 |
CMF: Cascaded Multi-model Fusion for Referring Image Segmentation Authors Jianhua Yang, Yan Huang, Zhanyu Ma, Liang Wang 在这项工作中,我们解决了参考图像分割RI的任务,其旨在预测由自然语言表达描述的对象的分割掩模。大多数现有方法都侧重于在视觉和语言特征之间建立单向或定向关系,以将两个模态与一起联合在一起,而多种规模上下文被忽略或模型不足。多尺度上下文对于本地化并段在多模态融合过程中分段具有大规模变化的这些对象至关重要。为了解决这个问题,我们提出了一个简单但有效的级联多模态融合CMF模块,它并行地堆叠多个卷积的卷积层,并进一步引入了级联分支,以熔断视觉和语言特征。级联分支可以逐渐集成多种尺度上下文信息,并在多模态融合过程中促进两个模态的对准。四个基准数据集上的实验结果表明,我们的方法优于最先进的方法。代码可用 |
EdgeConv with Attention Module for Monocular Depth Estimation Authors Minhyeok Lee, Sangwon Hwang, Chaewon Park, Sangyoun Lee 单眼深度估计是机器人和自主驾驶中的一个特别重要的任务,其中3D结构信息至关重要。然而,极端照明条件和复杂的表面对象使得难以预测单个图像中的深度。因此,要生成精确的深度映射,模型是学习场景的结构信息的模型很重要。我们提出了一种新颖的补丁智能EDGECONV模块PEM和EDGECONV注意模块EAM,解决单眼深度估计的难度。所提出的模块通过使用边缘卷积在空间中彼此接近的图像块之间的关系来提取结构信息。我们的方法是在两个流行的数据集,NYU深度V2和基蒂eIGEN分裂中进行评估,实现最新的性能状态。我们证明,通过各种比较实验,所提出的模型预先预测挑战性的场景中的深度。 |
FastAno: Fast Anomaly Detection via Spatio-temporal Patch Transformation Authors Chaewon Park, MyeongAh Cho, Minhyeok Lee, Sangyoun Lee 由于对监视视频的自动监测的需求的增加,视频异常检测已经显着。特别地,基于预测的方法是通过预测在学习训练集的正常帧之后的测试集中包括测试集中的异常事件的帧来检测异常的最多研究方法之一。然而,由于使用预训练的光流量网络,许多预测网络是计算昂贵的,或者由于其强大的生成能力来预测异常的能力而无法检测到异常情况。为了解决这些缺点,我们提出空间旋转变换SRT和时间混合变换TMT,以在正常框架长方体内产生不规则的贴剂长方体,以增强正常特征的学习。另外,所提出的补丁变换仅在训练阶段使用,允许我们的模型在推理期间以快速速度检测异常帧。我们的模型是在三种异常检测基准中进行评估,实现竞争准确性,并在速度方面超越所有先前的工作。 |
Disentangling Semantic-to-visual Confusion for Zero-shot Learning Authors Zihan Ye, Fuyuan Hu, Fan Lyu, Linyan Li, Kaizhu Huang 使用生成模型来综合语义分布的视觉特征是近年来ZSL图像分类最受欢迎的解决方案之一。三态损耗TL普遍用于通过自动搜索鉴别的表示来从语义产生现实的视觉分布。然而,由于ZSL中的看不见的课程,传统的TL无法搜索可靠的看不起的解散表示。为了减轻这种缺点,我们提出了这项工作,多模态三重态丢失MMTL,它利用多式联运信息来搜索解除戒备的表示空间。因此,所有类都可以相互作用,这可以在搜索的空间中使用学习解散类表示。此外,我们开发一种名为Disentangling类代表性的新型型号,称为Disentangling类表示生成的对抗网络DCR GaN,专注于利用训练,特征合成和最终识别阶段的解开表示。受益于解散的代表,DCR Gan可以对观察和看不见的特征符合更加现实的分布。广泛的实验表明,我们所提出的模型可以在四个基准数据集中导致卓越的性能。我们的代码可供选择 |
Federated Semi-supervised Medical Image Classification via Inter-client Relation Matching Authors Quande Liu, Hongzheng Yang, Qi Dou, Pheng Ann Heng 联邦学习FL已经出现了越来越受欢迎,可以协作分布式医疗机构培训深网络。然而,尽管现有的FL算法只允许受监督的培训环境,但在现实的大多数医院通常都不能承担由于没有预算或专业知识而无法提供复杂的数据标签。本文研究了一个实用但是挑战性的流体问题,名为CENTERIT联邦半监督学习FSSL,旨在通过共同利用来自标签和未标记的客户的数据来学习联邦模型。我们为此问题提出了一种新颖的方法,这提高了传统的一致性正则化机制,具有新的客户端关系匹配方案。该建议的学习方案通过对齐其提取的疾病关系来明确地将学习联系在标记和未标记的客户端中,从而减轻了未标记客户端的任务知识的缺陷,并从未标记的样本促进了判别信息。我们在两个大规模医学图像分类数据集上验证了我们的方法。我们的方法的有效性已经证明了对现有技术的明确改进以及对两个任务的彻底消融分析,将在URL上提供 |
PatchNet: Unsupervised Object Discovery based on Patch Embedding Authors Hankyu Moon, Heng Hao, Sima Didari, Jae Oh Woo, Patrick Bangert 我们证明可以通过自我监督从少量图像100到200训练随机采样的补丁来发现频繁出现的物体。这种方法的关键是模式空间,图案的潜在空间,其代表给定图像数据的所有可能的子图像。图案空间中的距离结构捕获由于频繁对象引起的图案的CO发生。通过最小化随机产生的相邻贴片之间的对比损耗来学习模式空间嵌入。为了防止嵌入学习背景,我们通过基于颜色的物体显着性和背景异化来调节对比损失。学习距离结构用作对象存储器,并且通过群集从采样的随机补丁来群集模式向量来发现频繁的对象。我们基于图像修补程序的图像表示自然地处理对多目标发现至关重要的位置和缩放不变性属性。该方法已被证明令人惊讶地有效,并成功地应用于从自然图像寻找多个人脸和尸体。 |
Temporal Convolution Networks with Positional Encoding for Evoked Expression Estimation Authors VanThong Huynh, Guee Sang Lee, Hyung Jeong Yang, Soo Huyng Kim 本文提出了一种诱发视频EEV挑战的表达的方法,旨在预测来自视频的诱发面部表情。我们利用计算机视觉和音频信号的大型数据集上的预训练模型,以提取视频中时间戳的深度表示。时间卷积网络,而不是像架构相同的RNN,用于探讨由于其在内存消耗和并行性中的优势而导致的时间关系。此外,为了解决一些时间戳的缺失注释,采用位置编码来确保在训练期间丢弃这些时间戳时输入数据的连续性。我们实现了最先进的EEV挑战,Pearson相关系数为0.05477,EEV 2021挑战中的第一个排名性能。 |
Domain Consistency Regularization for Unsupervised Multi-source Domain Adaptive Classification Authors Zhipeng Luo, Xiaobing Zhang, Shijian Lu, Shuai Yi 近年来,基于深度学习的多源无监督域适应Muda。与单源无监督域适应苏达相比,Muda中的域移位不仅存在于源域和多个源极域之间。大多数现有的Muda算法专注于提取所有域中的域不变表示,而类别的任务特定决策边界在很大程度上被忽视。在本文中,我们建议结束终端培训网络,用于利用无监督多源域自适应分类CRMA的域一致性正则化。 CRMS不仅对源域和目标域的分布对齐,而且对齐所有域的分布。对于每对源域和目标域,我们使用域内一致性来规则化一对特定域的分类器以实现域内对齐。此外,我们设计了一个域域一致性,其在所有域之间瞄准联合域间对齐。为了解决多个源域和目标域之间的不同相似之处,我们设计了一个授权策略,可自适应地将不同的当局分配给域特定分类器以获得最佳伪标签预测和自我训练。广泛的实验表明,CRMS在多源设置下有效地解决了无监督的域适应,并在多个Muda数据集中一致地实现了卓越的适应。 |
Compound Frechet Inception Distance for Quality Assessment of GAN Created Images Authors Eric J. Nunn, Pejman Khadivi, Shadrokh Samavi 生成的对抗性网络或GAN是一种生成的建模框架。 Gans涉及一对从事竞争的神经网络,在迭代创建虚假数据中,与真实数据无法区分。由于GAN框架的核心深入学习算法,一个值得明显的人在开发假人面,也称为深刻的假货。测量所生成的图像的质量本质上是主观的,但是已经进行了使用标准化指标对客观的质量进行客观。客观度量的一个例子是Freechet初始距离FID,其测量用于两个单独的图像数据集的特征向量的分布之间的差异。有些情况下,具有低感知品质的图像不会分配适当的FID分数。我们建议通过整合较低的级别功能来提高评估过程的稳健性来覆盖更广泛的视觉缺陷。我们所提出的方法集成了三个级别的特征抽象来评估所生成的图像的质量。实验评估显示出扭曲图像的提出方法的更好性能。 |
Learning Implicit Glyph Shape Representation Authors Ying Tian Liu, Yuan Chen Guo, Yi Xiao Li, Chen Wang, Song Hai Zhang 在本文中,我们提出了一种新颖的隐式字形表示,其模型形状的形状为由二次曲线包围的形状原语,并且自然使得能够以任意的高分辨率产生缩放图像。关于字体重建和插值任务的实验验证了这种结构化隐式表示适用于描述字形的结构和风格特征。此外,基于所提出的代表,我们设计了一个简单但有效的解除吊网,用于挑战一个射击字体样式转移问题,并实现与定量和定性比较的最新替代方案的最佳结果。从此表示中受益,我们生成的字形具有通过后处理转换为向量字体的可能性,从而降低光栅化图像和向量图形之间的差距。我们希望这项工作可以为2D形状分析和合成提供强大的工具,并激发了2D形状建模的隐式表示中的进一步开发。 |
Anomaly Detection in Video Sequences: A Benchmark and Computational Model Authors Boyang Wan, Wenhui Jiang, Yuming Fang, Zhiyuan Luo, Guanqun Ding 异常检测吸引了相当大的搜索关注。但是,现有的异常检测数据库遇到了两个主要问题。首先,它们的规模受到限制。其次,训练集只包含视频级标签,指示在整个视频期间存在异常事件,同时缺乏精确时间持续时间的注释。为了解决这些问题,我们贡献了一个新的大规模异常检测LAD数据库作为视频序列中异常检测的基准,这是在两个方面的特色。 1它包含2000个视频序列,包括具有14个异常类别的正常和异常的视频剪辑,包括崩溃,火,暴力等,具有大场景品种,使其成为迄今为止最大的异常分析数据库。 2它提供了注释数据,包括视频级标签异常普通视频,异常类型和帧级标签异常普通视频帧,以促进异常检测。利用以下利益来自小组数据库,我们进一步制定了异常检测作为完全监督的学习问题,并提出了一个多任务深度神经网络来解决它。我们首先通过使用膨胀的3D卷积I3D网络获取本地时空语境特征。然后,我们构建了一种反复卷积神经网络,美联储局部时空语境特征,以提取时空语境特征。通过全球时空语境特征,可以通过多任务神经网络同时计算异常类型和分数。实验结果表明,该方法优于我们数据库和其他异常检测的其他公共数据库的艺术异常检测方法的状态。代码可用 |
Detection of Morphed Face Images Using Discriminative Wavelet Sub-bands Authors Poorya Aghdaie, Baaria Chaudhary, Sobhan Soleymani, Jeremy Dawson, Nasser M. Nasrabadi 这项工作调查了变形攻击的众所周知的问题,这在生物识别社区中引起了相当大的关注。变形图像暴露了面部识别系统对虚假接受的易感性,导致可怕的后果,特别是对于国家安全应用。为了检测变形攻击,我们提出了一种基于鉴别的2D离散小波变换2D DWT的方法。鉴别的小波子频带可以突出真实和变形图像之间的不一致。我们观察到,在真丝图像中的给定子带的熵和变形样本中的相同子带S熵之间存在突出的差异。考虑到这两个熵值之间的这种不相似,我们发现两个分布之间的Kullback Leibler分歧,即Bona Fide的熵和相应的变形图像。最辨别的小波子带是具有最高相应KL发散值的小频带。因此,就Morph检测而言,选择22个子带作为最辨别的。我们表明,在22个鉴别的子带上培训的深度神经网络DNN可以精确地检测变形样品。最重要的是,通过三个数据集Visapp17,LMA和摩根的实验验证了我们算法的有效性。我们还对子频段选择进行了消融研究。 |
Unsupervised-learning-based method for chest MRI-CT transformation using structure constrained unsupervised generative attention networks Authors Hidetoshi Matsuo 1 , Mizuho Nishio 1 , Munenobu Nogami 1 , Feibi Zeng 1 , Takako Kurimoto 2 , Sandeep Kaushik 3 , Florian Wiesinger 3 , Atsushi K Kono 1 , Takamichi Murakami 1 1 Department of Radiology, Kobe University Graduate School of Medicine, Kobe, Japan, 2 GE Healthcare, Hino, Japan and 3 GE Healthcare, Munich, Germany 集成的正电子发射断层扫描磁共振成像PET MRI扫描仪促进通过PET和形态学信息同时使用MRI具有高软组织对比的形态学信息来获取代谢信息。尽管PET MRI有利于捕获高精度融合图像,但其主要缺点可归因于在执行衰减校正时遇到的困难,这对于定量宠物评估是必要的。由于伽玛射线衰减信息与MRI之间没有直接关系,所组合的PET MRI扫描需要从MRI产生衰减校正图。虽然可以容易地对头部和骨盆区进行MRI基于骨组织分割,但是通过胸部CT产生的精确骨分割的实现仍然是一个具有挑战性的任务。这可以归因于胸部发生的呼吸和心动运动以及其解剖学上复杂的结构和相对薄的骨皮质。本文提出了一种方法,以通过使用模态独立的邻域描述符到生成的对抗网络GAN添加结构约束来最小化没有人为注释的解剖结构变化,可以改变未配对图像。本研究中获得的结果揭示了建议的U GAT介绍越来越优于所有其他竞争方法的方法。该研究的结果提示朝着从胸部MRI综合临床上可接受的CT图像的可能性,没有人的注释,从而最小化解剖结构的变化。 |
Tackling the Challenges in Scene Graph Generation with Local-to-Global Interactions Authors Sangmin Woo, Junhyug Noh, Kangil Kim 在这项工作中,我们向场景图生成SGG任务的潜在挑战寻求新的洞察力。视觉基因组数据集的定量和定性分析意味着即使帧间性关系包含相同的对象或谓词,它们也可能看视觉或语义相似,2不对称尽管具有所体现的方向的关系性质,但这并不顺利在以前的研究中解决,3个高阶背景利用某些图形元素的身份可以有助于生成准确的场景图。通过分析,我们设计了一个新的SGG框架,本地到全局互动网络登录。在本地,交互通过约束输入顺序释放到网络的三个实例主题,对象和背景之间的本质。在全球范围内,交互对每个图组件节点和边之间的上下文进行编码。此外,我们还介绍了吸引丢失,精细调整谓词嵌入物。我们的框架通过设计,可以通过设计预测本地到全局方式的场景图,利用可能的互补性。为了量化有关关系方向的登录有多少,我们提出了一个名为双向关系分类BRC的新诊断任务。我们看到登录可以成功地区分关系方向,而不是BRC任务中的现有方法,同时显示了SGG任务中的视觉基因组基准的最新状态。 |
ECKPN: Explicit Class Knowledge Propagation Network for Transductive Few-shot Learning Authors Chaofan Chen, Xiaoshan Yang, Changsheng Xu, Xuhui Huang, Zhe Ma 最近,基于转换的图形方法在少数拍摄分类任务中取得了巨大的成功。然而,大多数现有方法忽略探索课程级知识,这些知识可以从人类容易地从少数样本中学到。在本文中,我们提出了一个明确的类知识传播网络ECKPN,它由比较,挤压和校准模块组成,以解决这个问题。具体地,我们首先使用比较模块来探索成对示例关系,以在实例级别图中学习丰富的样本表示。然后,我们挤压实例级别图以生成类级图,这可以帮助获得类级别的视觉知识并促进建模不同类的关系。接下来,采用校准模块来表征类的关系,明确地获取更辨别的类级知识表示。最后,我们将类级知识与实例级别样本表示组合起来指导查询样本的推断。我们对四个拍摄分类基准进行了广泛的实验,实验结果表明,所提出的ECKPN显着优于现有技术方法。 |
Watching Too Much Television is Good: Self-Supervised Audio-Visual Representation Learning from Movies and TV Shows Authors Mahdi M. Kalayeh, Nagendra Kamath, Lingyi Liu, Ashok Chandrashekar 丰富和易于利用声音,以及听觉线索揭示了场景中发生的事情的事实,使音频视觉空间成为自我监督的代表学习的完全直观的选择。然而,目前的文献表明,与受监督方式收集的秘密策划替代品相比,对纺织未经保健的数据的培训产生了相当较差的陈述,并且在数据量显着增加时,间隙只会缩小。此外,已知所知的质量受到用于自我监督培训的策划数据集的大小和分类的严重影响。当我们的自我监督仍然依赖于策划数据时,这引出了我们在追赶监督学习时庆祝的问题。在本文中,我们研究了学习从电影和电视节目的效果,作为音频视觉自我监督学习的未婚数据的形式。我们展示了一个基于对比学习的简单模型,培训了电影和电视节目的集合,而不仅显着优于更复杂的方法,这些方法在较大的未粗糙的数据集上训练,而且还与现有技术相比非常竞争从大规模策划数据中学习。我们确定视听模式,如主要性格或突出场景和MISE EN SC NE的外观,经常发生在电影的整个持续时间内,导致对比学习制定中的易于负面情况。在这种观察中,我们提出了一个分层采样政策,尽管其简单性,有效提高了性能,特别是在从电视节目中学习时,这自然面临着更少的语义多样性。 |
Revisit Visual Representation in Analytics Taxonomy: A Compression Perspective Authors Yueyu Hu, Wenhan Yang, Haofeng Huang, Jiaying Liu 视觉分析在物联网上发挥了越来越关键的作用,其中必须压缩和馈入机器的大规模视觉信号。但面对如此大的数据和受限的带宽容量,现有的图像视频压缩方法导致质量非常低,而现有的特征压缩技术无法支持具有低比特率表示的多样化的视觉分析应用任务。在本文中,我们提出和研究支持多机器视觉分析任务的新问题,具有压缩的视觉表示,即分析分类中的信息压缩问题。通过利用不同任务之间的内在转移性,我们的框架以低比特率成功构建了紧凑且表现力的表示,以支持多样化的机器视觉任务集,包括高级语义相关任务和中级几何分析任务。为了施加致密性,我们提出了一种基于码本的高度高验点,这有助于将表示映射到低维歧管中。由于它非常适合深度视觉特征的信号结构,它有助于更准确的熵估计,并导致更高的压缩效率。通过提出的框架和基于码本的高度的,我们进一步调查了拥有不同级别抽象粒度的不同任务特征的关系。实验结果表明,通过所提出的方案,与现有的压缩方案相比,可以以显着更低的比特率支持一组多样化任务。 |
Dynamically Grown Generative Adversarial Networks Authors Lanlan Liu, Yuting Zhang, Jia Deng, Stefano Soatto 最近的工作推出了进步网络,作为一种有希望的方式来缓解大型GAN的培训,但模型设计和建筑越来越多的战略仍然仍然探索和需要手动设计进行不同的图像数据。在本文中,我们提出了一种在训练期间动态地生长GaN的方法,以及自动化将网络架构及其参数优化。该方法将架构搜索技术嵌入与基于梯度的训练的交织步骤,以定期寻求发电机和鉴别器的最佳架构越来越多的策略。由于更广泛的建筑设计空间,它享有易于削减培训的好处。实验结果表明了图像生成的新状态。搜索程序中的观察还在GaN模型设计中提供了建设性的见解,例如发电机鉴别器平衡和卷积层选择。 |
Understanding and Evaluating Racial Biases in Image Captioning Authors Dora Zhao, Angelina Wang, Olga Russakovsky 图像标题是基于视觉推理的重要任务,并为有视力障碍的人提供可访问性的重要任务。然而,与许多机器学习设置一样,社会偏差可以以不希望的方式影响图像标题。在这项工作中,我们研究了图像标题中的偏置传播路径,专注于Coco DataSet。在使用手动注释的情况下,在使用自动导出的性别标签,在标题中已经分析了在标题中的性别偏差。使用手动注释,我们检查种族和交叉偏差。我们的第一批贡献是在获得IRB批准后向所描绘人员的28,315的感知性别和肤色注释。使用这些注释,我们将在手动和自动生成的图像字幕中进行比较存在的种族偏差。我们展示了标题性能,情绪和单词选择的差异与较暗皮肤的人的图像之间的图像。此外,与旧的字幕系统相比,我们发现这些差异的大小更大,因此导致担心没有适当考虑和减轻这些差异,这些差异只会越来越普遍。代码和数据可用 |
ICDAR 2021 Competition on Components Segmentation Task of Document Photos Authors Celso A. M. Lopes Junior, Ricardo B. das Neves Junior, Byron L. D. Bezerra, Alejandro H. Toselli, Donato Impedovo 本文介绍了在第16届文件分析和识别ICDAR 2021的第16次国际会议上编写的文档照片组件分割任务的短期竞争。本次竞争旨在将研究人员汇集在识别文档图像处理的提交上,并为它们提供合适的基准,以比较他们对文档图像的组件分段任务的技术。提出了三项挑战任务,要求在提供的数据集上执行不同的分段分配。收集的数据来自几种类型的巴西身份证件文件,其个人信息被方便地更换。有16名参与者,为某些或所有三个任务获得的结果显示了所采用的指标的不同率,如骰子相似度系数范围为0.06至0.99。参赛者使用不同的深度学习模型,具有各种策略,以实现每个任务中的最佳结果。获得的结果表明,解决一个提出的任务文件边界检测的目前应用方法已经很好地稳定。但是,对于另外两个挑战任务,文本区域和手写的标志检测研发更加强大的方法仍然需要实现可接受的结果。 |
Multi-scale Neural ODEs for 3D Medical Image Registration Authors Junshen Xu, Eric Z. Chen, Xiao Chen, Terrence Chen, Shanhui Sun 图像注册在医学图像分析中起着重要作用。由于昂贵计算成本,传统的基于优化的方法提供了一种准确的估计。需要更快地学习映射的深度学习方法更快,但要么迭代或粗糙到精细的方法都需要提高处理大型运动的准确性。在这项工作中,我们建议通过多尺度神经竞争模型来学习注册优化器。推断包括与传统梯度下降优化器类似的迭代梯度更新,但是以更快的方式,因为神经竞争者从训练数据学习以在每次迭代中有效地适应梯度。此外,我们建议学习模态独立相似度指标,以解决不同图像对比度的图像外观变化。我们在来自公共和私人数据源的多对比度3D MR图像的广泛实验中进行了评估,并展示了我们所提出的方法的卓越性能。 |
Achieving Domain Robustness in Stereo Matching Networks by Removing Shortcut Learning Authors WeiQin Chuah, Ruwan Tennakoon, Alireza Bab Hadiashar, David Suter 基于学习的立体声匹配和深度估计网络目前在具有令人印象深刻的公共基准上的Excel。然而,最先进的网络经常无法从合成图像概括到更具挑战性的真实数据域。本文试图发现通过分析合成图像学习对实际数据性能的影响,发现了揭示域稳健性的隐藏秘诀。我们提供证据表明,通过立体声匹配网络的合成领域的特征在于,STEREO匹配网络的学习受到合成数据1中呈现的两个快捷方式的影响,在合成立体图像中的匹配像素和2缺乏现实主义之间的匹配像素之间的相同局部统计RGB颜色特征。在游戏发动机模拟的3D对象上的合成纹理。我们将展示通过删除此类快捷方式,我们可以在最先进的立体声匹配框架中实现领域的稳健性,并在多个现实数据集中产生显着性能,尽管网络仅在合成数据上培训了网络。我们的实验结果指出,消除合成数据的快捷方式是在合成和实际数据域之间实现域不变泛化的关键。 |
Multi-Resolution Continuous Normalizing Flows Authors Vikram Voleti, Chris Finlay, Adam Oberman, Christopher Pal 最近的工作表明,神经常规差分方程ODES可以用作连续标准化流量CNFS的视角作为图像的生成模型。这些模型提供了精确的似然计算和可逆的产生密度估计。在该工作中,我们通过在生成与粗糙图像一致所需的附加信息上的附加信息上表征条件分布来引入这种模型MRCNF的多分辨率变体。我们在分辨率之间引入转换,允许对日志可能性没有变化。我们表明,该方法为各种图像数据集产生了可比的似然值,具有更高的分辨率的性能,仅使用1 GPU的参数较少。 |
Scene Transformer: A unified multi-task model for behavior prediction and planning Authors Jiquan Ngiam, Benjamin Caine, Vijay Vasudevan, Zhengdong Zhang, Hao Tien Lewis Chiang, Jeffrey Ling, Rebecca Roelofs, Alex Bewley, Chenxi Liu, Ashish Venugopal, David Weiss, Ben Sapp, Zhifeng Chen, Jonathon Shlens 预测多个代理的未来运动是在动态环境中规划所必需的。这项任务对自动驾驶的挑战,因为代理商驾驶,例如,车辆和行人及其相关行为可能多样化并相互影响。大多数事先工作都集中在首先根据所有过去的动议预测每个代理的独立期货,然后规划这些独立预测。然而,针对固定预测的计划可能会因无法代表不同代理商之间的未来互动可能性而导致次优化规划。在这项工作中,我们以统一的方式制定了一种用于预测现实世界驾驶环境中共同的所有代理的行为的模型。最近的语言模型的启发方法,我们使用了屏蔽的策略作为查询我们的模型,使一个调用一个模型来预测在很多方面的代理行为,如对自主汽车的目标或完整未来走势或潜在条件其他代理人在环境中的行为。我们的模型建筑通过在道路元素,代理交互和时间步骤中使用注意力来融合统一的变压器架构中的异质世界状态。我们评估我们在自动驾驶数据集中进行行为预测的方法,实现最先进的性能。我们的工作表明,使用掩蔽策略的统一架构中的行为预测问题可以允许我们具有可以有效地执行多个运动预测和规划相关任务的单个模型。 |
Seeing Through Clouds in Satellite Images Authors Mingmin Zhao, Peder A. Olsen, Ranveer Chandra 本文介绍了基于神经网络的解决方案,以恢复卫星图像中云封闭的像素。我们利用超级高频带中的射频RF信号穿透云,以帮助重建多光谱图像中的遮挡区域。我们介绍了第一个多模态多时间云移除模型。我们的模型使用公开的卫星观察,并产生日常云图片。实验结果表明,我们的系统在PSNR中显着优于8dB的基线。我们还展示了我们在数字农业,洪水监测和野火检测中的系统用例。我们将发布加工的数据集以促进未来的研究。 |
TextStyleBrush: Transfer of Text Aesthetics from a Single Example Authors Praveen Krishnan, Rama Kovvuri, Guan Pang, Boris Vassilev, Tal Hassner 我们提出了一种小说用于从外观的各个方面解开文本形象的内容。然后,我们派生的外观表示可以应用于新内容,用于将源样式的一次传输到新内容。我们以自我监督的方式学习这种解剖。我们的方法处理整个单词框,而无需从背景,每个字符处理或对字符串长度进行假设的文本分段。我们显示出以前通过专门化方法处理的不同文本域,例如,场景文本,手写文本。对于这些目的,我们做出了许多技术贡献1,我们将文本图像的风格和内容解开到非参数,固定尺寸向量中。 2我们提出了一种由样式创新的新型方法,但在不同的分辨率和内容下调节示例风格。 3我们提出了使用预培训的字体分类器和文本识别器保留源样式和目标内容的新型自我监督培训标准。最后,4我们还介绍了Imgur5k,这是一个用于手写的字图像的新具有挑战性的数据集。我们提供了我们方法的众多质量照片现实结果。我们进一步表明,我们的方法在场景文本和手写数据集以及用户学习中超越了以前的定量测试工作。 |
DMSANet: Dual Multi Scale Attention Network Authors Abhinav Sagar 迟到的注意机制在计算机视觉社区中很受欢迎。已经完成了许多工作来提高网络的性能,尽管几乎总是导致计算复杂性提高。在本文中,我们提出了一种新的注意力模块,不仅与大多数现有模型相比的最佳性能也具有较小的参数。由于其轻质性质,我们的注意力模块很容易与其他卷积神经网络集成。命名为双重Multi标注网络DMSANET的建议网络由两个部分组成,第一部分用于在各种尺度处提取特征并聚合它们,第二部分使用空间和通道注意力模块并行,以便自适应地将本地特征与其全局依赖性相结合。我们将我们的网络性能基准,用于在MS Coco数据集上的ImageNet DataSet上的图像分类,对象检测和实例分段。 |
Explaining decision of model from its prediction Authors Dipesh Tamboli 本文档总结了不同的视觉解释方法,如CAM,CARG CAM,使用多实例学习显着性的方法,显着驱动的类展示,输入图像侵犯方法和激活可视化中的静音像素,基于卷积滤波器可视化功能的方法。我们还示出了不同方法产生的结果和CAM,GRACTIM和引导逆产之间的比较。 |
Bridging Multi-Task Learning and Meta-Learning: Towards Efficient Training and Effective Adaptation Authors Haoxiang Wang, Han Zhao, Bo Li 多项任务学习MTL旨在通过共同学习来改善几个相关任务的概括。作为比较,除联合培训方案外,现代元学习还允许在测试阶段期间具有有限标签的未申请任务,希望快速适应它们。尽管MTL与Meta学习之间的差异在问题制定中,但学习范例均有相同的见解,即现有培训任务之间的共享结构可能导致更好的泛化和适应。在本文中,我们通过理论分析和实证调查,进一步了解这两个学习范式之间的密切联系。从理论上讲,我们首先表明MTL与一类基于梯度的元学习GBML算法共享相同的优化配方。然后,我们证明,对于具有足够深度的参数化神经网络,MTL和GBML的学习预测功能是关闭的。特别是,该结果意味着这两个模型给出的预测在相同的未经看不见的任务中类似。经验上,我们通过表明,通过适当的实施,MTL对艺术GBML算法的竞争力竞争,我们对我们的艺术GBML算法进行竞争来证实我们的理论发现。由于现有的GBML算法通常涉及昂贵的二阶BI级优化,因此我们的第一阶MTL方法是在大规模数据集(如Mini ImageNet)上更快的数量级。我们认为这项工作可以帮助弥合这两个学习范例之间的差距,并为GBML提供计算的计算有效替代,也支持快速任务适应。 |
An unifying point of view on expressive power of GNNs Authors Giuseppe Alessio D Inverno, Monica Bianchini, Maria Lucia Sampoli, Franco Scarselli 图形神经网络GNN是用于图形处理的广泛连接师模型。它们对每个节点及其邻居进行迭代消息传递操作,以解决某些节点或整个图表上的分类群集任务,而不是它们的顺序。尽管属于该类的各种模型之间的差异,但大多数基于本地聚合机制和直观地采用相同的计算方案,并直观地,本地计算框架主要负责GNN的表现力。在本文中,我们证明了Weisfeiler Lehman测试在图表节点上引起了与原始GNN模型上定义的展开等价相对应的曲线节点上的等效关系。因此,对原始GNN的表现力的结果可以扩展到一般GNN,其在温和条件下,可以证明能够近似,概率和最多的任何精度近似于展开展开等价的图形上的任何功能。 |
Sleeper Agent: Scalable Hidden Trigger Backdoors for Neural Networks Trained from Scratch Authors Hossein Souri, Micah Goldblum, Liam Fowl, Rama Chellappa, Tom Goldstein 随着机器学习数据的策展越来越自动化,数据集篡改是一种安装威胁。后门攻击者通过训练数据篡改,以嵌入在该数据上接受培训的模型中的漏洞。然后通过将触发器放入模型S输入来在推理时间激活此漏洞。典型的后门攻击将触发器直接插入训练数据,尽管在检查时可能会看到这种攻击。相比之下,隐藏的触发后卫攻击实现了中毒,而无需将触发器放入训练数据。然而,这种隐藏的触发攻击在从头划伤中培训的神经网络中无效。我们开发了一个新的隐藏触发攻击,睡眠代理,在制备过程中使用梯度匹配,数据选择和目标模型RE培训。睡眠者代理是第一个隐藏的触发后门攻击,以对从头开始训练的神经网络有效。我们展示了Imagenet和黑匣子设置的有效性。我们的实施代码可以找到 |
Improved CNN-based Learning of Interpolation Filters for Low-Complexity Inter Prediction in Video Coding Authors Luka Murn, Saverio Blasi, Alan F. Smeaton, Marta Mrak 最近的机器学习方法的多功能性使其成为改进下一代视频压缩解决方案的理想选择。遗憾的是,这些方法通常会引起计算复杂性的显着增加,并且难以解释为可解释的模型,影响其在实际视频编码应用中的实现的潜力。本文介绍了一种新颖的可解释的神经网络的基于帧间预测方案,以改善分数精密运动补偿所需的参考样本的插值。该方法需要待训练的单个神经网络,从该神经网络从中导出,因为网络由于其线性结构而容易解释,因此可以从中获得全部季度像素插值滤波器组。新颖的训练框架使每个网络分支能够类似于特定的分数偏移。这种实用的解决方案使其与传统的视频编码方案一起使用非常有效。当在艺术通用视频编码VVC测试模型的状态下实现时,可以平均实现0.77,1.27和2.25 BD速率节省,以便分别在随机接入,低延迟B和低延迟P配置下的较低分辨率序列。 ,而与完整CNN的插值相比,学习的插值方案的复杂性显着减少。 |
$C^3$: Compositional Counterfactual Constrastive Learning for Video-grounded Dialogues Authors Hung Le, Nancy F. Chen, Steven C.H. Hoi 视频接地对话系统旨在将视频理解和对话理解集成,以生成与对话和视频上下文相关的响应。鉴于可用的数据集相对较小的数据集,大多数现有方法采用深度学习模型并实现了显着的性能。然而,结果是通过利用数据集中的偏差而不是开发多式化推理来部分完成的结果,从而导致泛化有限。在本文中,我们提出了一种新颖的成分反应性对比学习C 3的方法,以在视频接地对话中的事实和反事实样本之间的对比培训。具体而言,我们根据对话中的视频和令牌中的时间步骤设计事实反事实采样,并提出利用对象级别或动作级别方差的对比损耗函数。与现有方法不同,我们专注于组合物输出标记中的对比隐性状态表示,以优化一代环境中的表示空间。我们在视觉视野意识到对话的绩效收益取得了很大的表现,并且在接地视频和对话背景下展示了我们方法的好处。 |
GelSight Wedge: Measuring High-Resolution 3D Contact Geometry with a Compact Robot Finger Authors Shaoxiong Wang, Yu She, Branden Romero, Edward Adelson 基于视觉的触觉传感器有可能提供重要的接触几何形状,以通过视觉遮挡本地化目标。然而,测量紧凑型机器人手指的高分辨率3D接触几何体是挑战,同时满足光学和机械约束。在这项工作中,我们介绍了Gelight Wedge传感器,该传感器经过优化,为机器人手指具有紧凑的形状,同时实现高分辨率的3D重建。我们在不同的照明配置下评估3D重建,并将方法从3灯延伸到1或2灯。我们通过将传感器缩小到人体手指的尺寸以进行微细操作任务来证明设计的灵活性。我们还显示了在3D空间中姿态跟踪的重建3D几何的有效性和潜力。 |
A Fair and Comprehensive Comparison of Multimodal Tweet Sentiment Analysis Methods Authors Gullal S. Cheema, Sherzod Hakimov, Eric M ller Budack, Ralph Ewerth 意见和情绪分析是一个重要任务,可以在社交媒体帖子中表征主观信息。在本文中,我们提出了一个全面的实验评估和与六种最新方法的比较,我们已经从中实施了其中一个。此外,我们还调查了涵盖内容的不同方面的不同文本和可视特征嵌入,以及最近引入的多模式剪辑嵌入。对于两个不同的公开可用的基准数据集,推文和相应图像的两种不同的基准数据集提出了实验结果。与先前工作的评估方法相比,我们引入了一种可重复和公平的评估方案,以使结果可比。最后,我们进行了错误分析,概述了未来工作的方法和可能性的局限性。 |
Mobile Augmented Reality: User Interfaces, Frameworks, and Intelligence Authors Jacky Cao, Kit Yung Lam, Lik Hang Lee, Xiaoli Liu, Pan Hui, Xiang Su 移动增强现实Mar将计算机生成的虚拟对象与移动设备的物理环境集成。 MAR Systems使用户能够与MAR设备进行交互,例如智能手机和头部穿戴设备,并从物理世界与数字实体的混合世界进行无缝过渡。这些MAR系统支持使用MAR设备提供对数字内容的通用可访问性的用户体验。在过去的20年中,已经开发了许多MAR系统,但是从用户中心设计的角度尚未系统地审查了MAR框架的研究和设计。本文提出了调查现有的MAR框架数量37的第一次努力,进一步讨论了通过顶级方法1 MAR应用的最新研究1 MAR应用2 MAR可视化技术适应用户移动性和背景3系统评估MAR框架的系统评估,包括支持的平台和相应的SMAR框架系统评估跟踪,特征提取等功能,包括支持MAR系统内智能操作的智能操作的传感功能和4个底层机器学习方法。最后,我们总结了新兴研究领域,现有技术的发展,并讨论了重要的开放挑战和可能的理论和技术方向。该调查旨在使研究人员和MAR系统的开发人员受益。 |
Silent Speech and Emotion Recognition from Vocal Tract Shape Dynamics in Real-Time MRI Authors Laxmi Pandey, Ahmed Sabbir Arif 通过改变声乐道周围的铰接器的配置来获得口语语言的语音。它们包含了丰富的信息,可以利用来更好地理解人类语音生产的基础机制。我们提出了一种新的基于神经网络的基于神经网络的学习框架,该框架理解语音生产过程中的声带整形的可变长度序列的声学信息,由实时磁共振成像RTMRI捕获,并将其转换为文本。所提出的框架包括时空卷积,经常性网络和连接主义时间分类损失,培训完全结束。在USC Timit语料库中,与现有模型相比,该模型在句子水平上实现了40.6次。据我们所知,这是第一项研究,这证明了基于RTMRI视频捕获的个体剖视运动来识别整个口语句子。我们还对声带的每个子区域的铰接几何形状的变化进行了分析,I.,咽部,柔软体和背部,硬腭,唇部收缩区域的不同情绪和性别。结果表明,每个子区域失真受到情绪和性别的影响。 |
ParticleAugment: Sampling-Based Data Augmentation Authors Alexander Tsaregorodtsev, Vasileios Belagiannis 我们提出了一种用于图像分类的自动化数据增强方法。我们将问题与Monte Carlo采样制定出来,我们的目标是近似最佳增强政策。我们提出了一种粒子过滤制剂,可以在模型培训期间找到最佳的增强政策及其时间表。我们的性能测量程序依赖于我们培训集的验证子集,而策略转换模型取决于高斯先前和可选的增强速度参数。在我们的实验中,我们表明,我们的自动增强的配方达到了使用标准网络架构的CiFar 10,CiFar 100和ImageNet数据集在此问题上达到了有希望的结果。通过与相关工作进行比较,我们还表明我们的方法达到了策略搜索的计算成本和模型性能之间的平衡。 |
GKNet: grasp keypoint network for grasp candidates detection Authors Ruinian Xu, Fu Jen Chu, Patricio A. Vela 当代掌握检测方法采用深度学习,实现传感器和物体模型不确定性的鲁棒性。这两个主导方法设计掌握质量评分或基于锚的掌握识别网络。本文通过将其视为键点检测来呈现掌握检测的不同方法。深网络检测每个把握候选者作为一对关键点,可转换为掌握表示G x,y,w,theta t,而不是角点的三重态或四倍。通过将关键点分组成对来降低检测难度提升性能。为了进一步促进关键点之间的依赖性,将常规非本地模块结合到所提出的学习框架中。基于离散和连续定向预测的最终过滤策略消除了错误的对应关系,并进一步提高了掌握检测性能。 GKNET,此处介绍的方法,在41.67和23.26 FPS下实现了康奈尔和伸缩的提花数据集96.9和98.39上的准确性和速度的最佳平衡。在操纵器上进行跟进实验,使用4种类型的抓取实验评估GKNet,反映不同滋扰源的静态抓握,动态抓握,在各种摄像机角度抓住,垃圾挑选。 GKNet优于静态和动态掌握实验中的参考基线,同时显示了变化的相机观点和垃圾拣选实验的鲁棒性。结果证实了掌握关键点是深度掌握网络的有效输出表示的假设,为预期的滋扰因素提供鲁棒性。 |
Machine learning-based analysis of hyperspectral images for automated sepsis diagnosis Authors Maximilian Dietrich 1 , Silvia Seidlitz 2, 3 , Nicholas Schreck 4 , Manuel Wiesenfarth 4 , Patrick Godau 2, 3 , Minu Tizabi 2 , Jan Sellner 2, 3 , Sebastian Marx 1 , Samuel Kn dler 5 , Michael M. Allers 5 , Leonardo Ayala 2, 7 , Karsten Schmidt 8 , Thorsten Brenner 8 , Alexander Studier Fischer 5 , Felix Nickel 5 , Beat P. M ller Stich 5 , Annette Kopp Schneider 4 , Markus A. Weigand 1 , Lena Maier Hein 2, 6, 7 1 Department of Anesthesiology, Heidelberg University Hospital, Heidelberg, Germany, 2 Division of Computer Assisted Medical Interventions, German Cancer Research Center DKFZ , Heidelberg, Germany, 3 HIDSS4Health Helmholtz Information and Data Science School for Health, Karlsruhe Heidelberg, Germany 4 Division of Biostatistics, German Cancer Research Center DKFZ , Heidelberg, Germany, 5 Department of General, Visceral, and Transplantation Surgery, Heidelberg University Hospital, Heidelberg, Germany, 6 Faculty of Mathematics and Computer Science, Heidelberg University, Heidelberg, Germany, 7 Medical Faculty, Heidelberg University, Heidelberg, Germany, 8 Department of Anesthesiology and Intensive Care Medicine, University Hospital Essen, University Duisburg Essen, Essen, Germany 败血症是全世界死亡率和危重疾病的主要原因。虽然仍缺少早期诊断的强大生物标志物,但最近的工作表明高光谱成像HSI通过监测微循环改变来克服该瓶颈。然而,基于HSI数据的基于自动化机器学习基于HSI数据的败血症诊断迄今尚未探讨。鉴于文献中的这种差距,我们利用现有的数据设置为1调查败血症的自动诊断是否可能,并且2提出了与基于HSI的组织分类相关的可能混血仪的列表。虽然我们能够使用现有数据对epsis进行准确性的准确性,但我们的研究还揭示了几个受试者,治疗和成像相关混淆,这些混淆可能导致在患者组上不平衡时估计算法性能。我们得出结论,进一步的前瞻性研究,仔细设计了这些混乱者,是确认本研究中获得的初步结果所必需的。 |
A Multi-Layered Approach for Measuring the Simulation-to-Reality Gap of Radar Perception for Autonomous Driving Authors Anthony Ngo, Max Paul Bauer, Michael Resch 随着自动驾驶汽车释放的越来越多的安全验证要求,除了传统的现实世界测试之外,还出现了基于模拟的测试等替代方法。为了依靠虚拟测试,必须验证采用的传感器模型。因此,有必要量化模拟和现实之间的差异,以便确定某些保真度是否足以用于所需的预期用途。没有声音方法可以测量此模拟,以实现自动驾驶的雷达感知的现实差距。我们通过引入多层评估方法来解决这个问题,该方法包括显式和隐式传感器模型评估的组合。前者直接评估了合成产生的传感器数据的现实主义,而后者是指对下游目标应用的评估。为了展示该方法,我们评估了三种典型雷达模型类型的保真度理想,数据驱动,光线跟踪的基础和其适用性,以及基于基于雷达的多目标跟踪。我们已经在提供了在深度传感器模型评估方面显示了所提出的方法的有效性,使得呈现现有差异可见并且能够估计不同场景的整体模型保真度。 |
Chinese Abs From Machine Translation |