【AI视野·今日CV 计算机视觉论文速览 第217期】Thu, 10 Jun 2021

AI视野·今日CS.CV 计算机视觉论文速览
Thu, 10 Jun 2021
Totally 60 papers
👉上期速览更多精彩请移步主页

在这里插入图片描述

Daily Computer Vision Papers

Semi-Supervised 3D Hand-Object Poses Estimation with Interactions in Time
Authors Shaowei Liu, Hanwen Jiang, Jiarui Xu, Sifei Liu, Xiaolong Wang
估计从单个图像的3D手和对象姿势是一个极具挑战性的问题,手和物体通常在交互过程中自我封闭,并且甚至人类不能完全从单个图像直接标记地面真理的稀缺。为了解决这些挑战,我们提出了一个统一的框架,用于估计具有半监督学习的3D手和对象姿势。我们建立一个联合学习框架,在那里我们通过变压器在手和对象表示之间进行明确的上下文推理。超越在单个图像中的3D注释之外,我们将大规模手对象视频中的空间时间一致性作为在半监督学习中生成伪标签的约束。我们的方法不仅在挑战真实世界数据集中提高了手姿势估计,而且还大大改善了每个实例的地面真理的对象姿势。通过使用大规模多样化视频培训,我们的模型也在域中的多个域数据集中概括。项目页面和代码

NeRF in detail: Learning to sample for view synthesis
Authors Relja Arandjelovi , Andrew Zisserman
神经辐射场NERF方法表现出令人印象深刻的新颖观点合成性能。核心方法是通过在沿光线采样的点处查询神经网络以获得采样点的密度和颜色来呈现各个光线,并使用渲染方程集成该信息。由于致密采样是计算的,但是常见的解决方案是执行粗糙度至精细采样。

We Can Always Catch You: Detecting Adversarial Patched Objects WITH or WITHOUT Signature
Authors Bin Liang, Jiachun Li, Jianjun Huang
最近,基于深度学习的对象检测已被证明是易受对抗的补丁攻击攻击。持有一个特制的贴片的攻击者可以从艺术人员探测器,例如yolo,即使在物理世界中也可以隐藏自己。这种攻击可以带来严重的安全威胁,例如从监视摄像机逃脱。在本文中,我们深深探讨了对对象检测的对抗修补程序攻击的检测问题。首先,我们从可视化解释点识别现有的对抗性补丁的杠杆签名。提出了一种快速签名的防御方法,并证明是有效的。其次,我们设计了一种改进的补丁生成算法,以揭示基于签名的方式可以通过未来出现的技术绕过的风险。新生成的对抗性补丁可以成功地逃避基于签名的防御。最后,我们提出了一种基于内部内容语义一致性的新型签名独立检测方法,而不是任何攻击特定的先验知识。基本直觉是对手对象可以在本地出现,但在输入图像中全局消失。实验表明,签名独立方法可以有效地检测现有和改进的攻击。通过在没有任何攻击的现有知识的情况下,它还通过检测不可预见的甚至其他类型的攻击来证明是一种通用方法。两个提出的检测方法可以在不同的场景中采用,我们相信组合它们可以提供全面的保护。

Generative Models as a Data Source for Multiview Representation Learning
Authors Ali Jahanian, Xavier Puig, Yonglong Tian, Phillip Isola
生成模型现在能够产生高度现实的图像,从培训的数据看起来几乎无法区分。如果我们有足够好的生成模型,这会提出这个问题,我们仍然需要数据集我们在从黑匣子生成模型的学习通用视觉表现中而不是直接从数据的设置中调查这个问题。给出了货架图像发生器而无需任何访问其培训数据,我们从该发生器输出的样本中列出表示。我们使用生成器的潜像来比较可以应用于此设置的几种表示学习方法,以生成相同语义内容的多个视图。我们表明,对于对比方法,这种多视图数据自然可用于识别附近的正面对,在潜在空间中遥远的潜在空间和负对对。我们发现所产生的表示竞争竞争力直接从真实数据中学到的,但良好的性能需要在应用的抽样策略中进行护理和培训方法。生成模型可以被视为数据集的压缩和有组织的副本,我们设想了未来,其中越来越多的型Zoos增殖,而DataSets越来越笨重,丢失或私有。本文介绍了在这种未来处理视觉表现学习的几种技术。代码在我们的项目页面上发布

Knowledge distillation: A good teacher is patient and consistent
Authors Lucas Beyer, Xiaohua Zhai, Am lie Royer, Larisa Markeeva, Rohan Anil, Alexander Kolesnikov
在大规模模型之间的计算机视觉中存在越来越多的差异,该模型达到了实际应用中实惠的现有性能和模型的状态。在本文中,我们解决了这个问题,并显着弥合了这两种模型之间的差距。在我们的经验调查中,我们并不旨在提出一种新的方法,而是努力确定在实践中经济实惠的艺术大规模模型的稳健和有效的配方。我们证明,当正确执行时,知识蒸馏可以是减少大型模型尺寸而不会影响其性能的强大工具。特别是,我们发现存在某些隐含的设计选择,这可能会大大影响蒸馏的有效性。我们的主要贡献是明确的这些设计选择的识别,这些选择选项以前没有在文献中阐述。我们通过全面的实证研究备份我们的调查结果,展示了广泛的视觉数据集的令人信服的结果,特别是获得了Atorenet的最先进的reset50模型,这实现了82.8前1个精度。

Analysis of convolutional neural network image classifiers in a hierarchical max-pooling model with additional local pooling
Authors Benjamin Walter
考虑图像分类,介绍了具有额外本地池的分层最大池模型。这里,附加的本地池使得可以将定影型模型组合将具有变量相对距离彼此的图像的部分组合。鉴于它们的收敛速度,引入并比较了各种卷积神经网络图像分类器。通过将它们应用于模拟和实际数据来分析估算的有限样本尺寸性能。

An ordinal CNN approach for the assessment of neurological damage in Parkinson's disease patients
Authors Javier Barbero G mez, Pedro Antonio Guti rrez, V ctor Manuel Vargas, Juan Antonio Vallejo Casas, C sar Herv s Mart nez
3D图像扫描是帕金森S病PD患者神经损伤的评估工具。这种诊断过程可以自动化,以帮助医务人员通过决策支持系统DSSS,并且卷积神经网络CNN是良好的候选者,因为它们在应用于空间数据时是有效的。本文提出了一种用于评估PD患者水平或神经损伤的3D CNN序数模型。鉴于CNNS需要大型数据集以实现可接受的性能,数据增强方法适于使用空间数据。我们考虑通过最短路径OGO SP方法基于过采样的序数图,该方法应用于帧内数据生成的伽马概率分布。提出了对OGO SP的修改,ogoSPβ算法应用于在帧间区域中产生合成样本的β发布,与伽马相比更好地分布。不同方法的评估是基于由西班牙CRDOBA的医院大学雷纳SOF提供的新型3D图像数据集。我们展示了序数方法如何改善了标称值的性能,以及OgoSPβ如何产生的性能比OGO SP更好。

A machine learning pipeline for aiding school identification from child trafficking images
Authors Sumit Mukherjee, Tina Sederholm, Anthony C. Roman, Ria Sankar, Sherrie Caltagirone, Juan Lavista Ferres
儿童贩卖世界各地的严重问题。每年有400多万贩卖世界各地的儿童受害者,其中许多用于儿童性剥削的目的。在与英国警察和非营利性的合作中,专注于儿童滥用预防,全球解放网,我们制定了概念机器学习管道的证据,以帮助识别来自截取的图像。在这项工作中,我们专注于包含佩戴校服的儿童的图像来识别起源学校。在没有机器学习管道的情况下,这一巨大耗时和劳动密集型任务由执法人员手动进行。因此,通过自动化学校识别过程的方面,我们希望大大影响本部分儿童识别的速度。我们所提出的管道由两台机器学习模型I构成,识别儿童的图像是否包含校服中的校服,以及衬衫,毛衣,燃料等颜色纹理等不同校服项目的属性的识别。我们描述了数据收集,标签,模型开发和验证过程以及使用模型预测有效地搜索学校的策略。

Rethinking Space-Time Networks with Improved Memory Coverage for Efficient Video Object Segmentation
Authors Ho Kei Cheng, Yu Wing Tai, Chi Keung Tang
本文介绍了在视频对象分割的背景下建模空间时间对应的简单而有效的方法。与大多数现有方法不同,我们在不重新编码每个对象的掩码功能之间直接建立相应的对应关系,导致高效且强大的框架。利用该对应关系,当前查询帧中的每个节点都是通过以与关联方式汇总到过去的特征来推断出来的。我们将聚合过程作为投票问题,发现现有的内部产品亲和力导致存储器利用较差,内存的小型内存节点的小型存储器节点,无论查询如何。鉴于这种现象,我们建议使用负平方欧几里德距离来计算亲和力。我们经过验证,每个内存节点现在都有机会贡献,并通过实验表明这种多样化的投票有利于内存效率和推理准确性。通信网络和多元化投票的协同作用非常好,在戴维斯和Youtubevos数据集中实现了新的最新状态,同时在没有钟声和口哨的多个物体的20 fps中运行得多。

Distilling Image Classifiers in Object Detectors
Authors Shuxuan Guo, Jose M. Alvarez, Mathieu Salzmann
知识蒸馏构成通过利用更强大的老师的知识来提高紧凑学生网络的性能简单而有效的方法。尽管如此,知识蒸馏文献仍然仅限于学生和教师解决同一任务的场景。在这里,我们调查不仅在跨架构中传输知识的问题,也可以跨出任务。为此,我们研究了物体检测的情况,而不是按照标准探测器到检测器蒸馏方法,而不是将分类器引入探测器知识转移框架。特别是,我们提出了利用分类师的策略来改善探测器的识别准确性和本地化性能。我们对具有不同骨架的几种探测器的实验证明了我们方法的有效性,使我们能够优于现有技术的状态探测器蒸馏方法。

Geometry-Consistent Neural Shape Representation with Implicit Displacement Fields
Authors Wang Yifan, Lukas Rahmann, Olga Sorkine Hornung
我们呈现隐式位移字段,一种用于详细的3D几何的新颖表示。受到经典表面变形技术的启发,位移映射,我们的方法表示作为平滑基表面的复杂表面加上沿着基部的正常方向的位移,导致频率的形状分解,其中高频信号由几何限制低频信号。重要的是,由于一定量身定制的建筑设计,这种解剖更加无人驾驶,这些建筑设计通过施工具有先天频率层次结构。我们探索隐式位移场表面重建和细节传输,并展示优异的代表性功率,训练稳定性和概括性。

Learning to Rank Words: Optimizing Ranking Metrics for Word Spotting
Authors Pau Riba, Adri Molina, Lluis Gomez, Oriol Ramos Terrades, Josep Llad s
在本文中,我们探索并评估基于排名的客观函数来学习单词字符串和单词图像编码器。我们考虑检索框架,其中用户期望根据定义的相关评分排名的检索列表。在单词发现问题的上下文中,已根据Query从查询字符串编辑距离设置相关性分数。我们通过字符串单词斑点来通过实验展示所提出的模型对查询模型的竞争性能。我们还通过示例单词发现提供查询的结果,尽管这不是这项工作的主要重点。

PCNet: A Structure Similarity Enhancement Method for Multispectral and Multimodal I
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值