【AI视野·今日CV 计算机视觉论文速览 第206期】

379 篇文章 70 订阅
261 篇文章 13 订阅

AI视野·今日CS.CV 计算机视觉论文速览
Wed, 26 May 2021
Totally 62 papers
👉上期速览更多精彩请移步主页

在这里插入图片描述

Interesting:

*****📚极化成像, 计算光线传输成像方法来捕捉时空变换的极化响应,解耦成像过程中的材料信息。(from 普林斯顿)

examining polarimetric material properties jointly with geometric properties is an open challenge that could enable unprecedented capabilities beyond geometric scene understanding, allowing to incorporate material-dependent semantics and imaging through complex transport, such as macroscopic scattering

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

**** 📚VTNET, 基于transformer的目标导航(from 澳大利亚国立)
在这里插入图片描述
在这里插入图片描述


📚BodyPressureWnet基于深度图的人体睡姿压力估计, (from 佐治亚理工)

Contact pressure between the human body and its surroundings has important implications
在这里插入图片描述

数据集与数据合成:
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

BodyPressureSD,: large synthetic human resting pose dataset,
SLP dataset [2]

***** 📚将多视角三维重建表面几何与反射的能量最小化问题,基于co-located 光源的低纹理物体未知反射下的多视角三维重建(from 澳大利亚国立 东京大学 )
在这里插入图片描述
在这里插入图片描述
code:https://github.com/za-cheng/PM-PMVS/


📚基于多模态的视频中的人物聚合问题, 一种层次的聚类思想(from VGG 牛津)
聚类问题的identity–多模态:Face, Body, Voice: Video Person-Clustering with Multiple Modalities
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
code:https://www.robots.ox.ac.uk/~vgg/data/Video_Person_Clustering/


📚ViBERTgrid, 联合训练的多模态2D文件表示学习与文本中关键信息抽取 。(from MSRA 北大 中科大)
在这里插入图片描述

在这里插入图片描述
dataset: SROIE [1] dataset. ICDAR SROIE dataset INVOICE


📚基于文本的人检索, (from 南京信息工程大学)
在这里插入图片描述

code:https://github.com/OrangeYHChen/TIPCB

📚 Content-Augmented Feature Pyramid Network(CA-FPN), 内容增强的特征金字塔用于轻量级的transformer(from 中科院)
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述在这里插入图片描述


📚SBEVNet, 道路布局估计,可以得到鸟瞰视图的布局和课件的视野mask(from CMU )
在这里插入图片描述


📚高频信息图像恢复, (from 首尔大学)
在这里插入图片描述

📚稀疏监督下的单目深度估计, (from 三星研究院)
在这里插入图片描述
在这里插入图片描述

📚基于transformer的时域动作生成模型, 从视频中抽取动对应的动作(from 哈工大)
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
ref:https://blog.csdn.net/weixin_41595062/article/details/110143983

📚HDR方法, (from Izmir University of Economics, Izmir, Turkey )
在这里插入图片描述


📚下一代移动支付系统安全综述, (from Air University, Islamabad, Pakistan)
在这里插入图片描述



Daily Computer Vision Papers

DSANet: Dynamic Segment Aggregation Network for Video-Level Representation Learning
Authors Wenhao Wu, Yuxiang Zhao, Yanwu Xu, Xiao Tan, Dongliang He, Zhikang Zou, Jin Ye, Yingying Li, Mingde Yao, Zichao Dong, Yifeng Shi
长距离和短程时间建模是视频识别的两个互补和关键方面。最先进的技术侧重于短程时空时间建模,然后聚在于平均多个片段级别预测,以产生最终的视频级预测。因此,它们的视频级预测不考虑视频如何沿着时间尺寸演变的时空特征。在本文中,我们介绍了一种新颖的动态段聚合DSA模块来捕获片段之间的关系。更具体地,我们尝试为卷积操作生成动态内核,以便自适应地聚合相邻片段之间的长距离时间信息。 DSA模块是一个有效的插头和播放模块,可以与基于货架夹的模型相结合,即TSM,I3D,以最小的开销执行强大的长距离建模。最终的视频架构,作为dsanet。我们对多个视频识别基准进行广泛的实验,即迷你动力学200,动力学400,某些东西V1和ActivityNet以显示其优越性。我们提出的DSA模块显示为显着利用各种视频识别模型。例如,配备DSA模块,I3D Reset 50的前1个精度从动力学400上的74.9到78.2提高到78.2。代码将可用。

Real-time Monocular Depth Estimation with Sparse Supervision on Mobile
Authors Mehmet Kerim Yucel, Valia Dimaridou, Anastasios Drosou, Albert Sa Garriga
单眼相对或度量深度估计是各种应用的关键任务,例如自主车辆,增强现实和图像编辑。近年来,随着移动设备的可用性的增加,准确和移动友好的深度模型获得了重要性。越来越准确的模型通常需要更多的计算资源,这禁止在移动设备上使用这种模型。移动用例可以说是最不受限制的案例,这需要高准确但是移动友好的架构。因此,我们尝试回答以下问题,我们如何改进模型,而无需添加进一步的复杂性即参数,我们可以系统地探索来自各种维度的相对深度估计模型的设计空间,我们展示了关键设计选择和消融研究,即使是现有的架构也可以对最先进的竞争性能达到高度竞争的性能,具有一小部分复杂性。我们的研究跨越深度骨干模型选择过程,知识蒸馏,中间预测,模型修剪和损失重新平衡。我们表明我们的模型仅使用DIW作为监控数据集,在DIW上实现0.1156 WHDR,具有2.6米的参数,在移动GPU上达到37个FP,无需修剪或硬件特定优化。我们的模型的修剪版本达到0.1208 WHDR,带有1M参数,在移动GPU上达到44个FPS。

Temporal Action Proposal Generation with Transformers
Authors Lining Wang, Haosen Yang, Wenhao Wu, Hongxun Yao, Hujie Huang
变压器网络在建模长距离上下文信息中是有效的,并且最近在自然语言处理域中展示了示例性性能。传统上,时间动作提议生成TAPG任务分为两个主子任务边界预测和提案置信度预测,其依赖于帧级依赖性和提议级关系。为了捕获不同级别的粒度的依赖性,本文直观地提出了一个统一的时间动作提议生成框架,该提议使用原始变压器称为TAPG变压器,由边界变压器和建议变压器组成。具体地,边界变压器捕获长期时间依赖性以预测精确的边界信息,并且提案变压器学习丰富的帧间建议关系以获得可靠的置信度评估。广泛的实验是在两个流行的基准接受目录1.3和Thumos14上进行的,结果表明,TAPG变压器优于现有技术的状态。配备现有的Action Classifier,我们的方法在时间动作本地化任务上实现了显着性能。可以使用代码和模型。

Towards Unpaired Depth Enhancement and Super-Resolution in the Wild
Authors Aleksandr Safin, Maxim Kan, Nikita Drobyshev, Oleg Voynov, Alexey Artemov, Alexander Filippov, Denis Zorin, Evgeny Burnaev
使用商品传感器捕获的深度映射通常具有低质量,并且需要增强这些地图,以便在许多应用中使用这些地图。最先进的数据驱动方法深度地图超级分辨率依赖于同一场景的登记对的低和高分辨率深度图。收购现实世界配对数据需要专门的设置。另一种替代方案,通过回顾,添加噪声和其他人工劣化方法,从高分辨率映射产生低分辨率映射,并不完全捕获现实世界低分辨率图像的特征。因此,在这种人工配对数据上培训的监督学习方法可能无法在现实世界的低分辨率输入上表现良好。我们考虑基于从未配对数据学习的深度地图增强方法。虽然已经提出了许多用于未配对图像到图像翻译的技术,但大多数都不适用于深度图。我们提出了一种用于同时深度增强和超级分辨率的未配对学习方法,基于学习的降级模型和表面正常估计作为产生更精确的深度图的功能。我们展示了我们的方法优于现有的未配对方法,并在对我们开发的未配对学习的新基准上进行配对方法。

Emotion Recognition in Horses with Convolutional Neural Networks
Authors Luis A. Corujo, Peter A. Gloor, Emily Kieson
创建能够识别情绪的智能系统是一项艰巨的任务,特别是在看动物中的情绪时。本文介绍了设计概念系统证明,以识别马匹的情绪。该系统由两个元素,检测器和模型形成。探测器是一种更快的基于区域的卷积神经网络,可检测图像中的马匹。第二个是该模型,是一种卷积神经网络,预测这些马的情绪。这两种型号训练有多个马的图像,直到它们在其任务中实现了高精度,因此产生了所需的系统。 400张马匹的图像用于培训探测器和模型,而80用于验证系统。一旦验证了两种组分,它们被组合成可测试系统,该系统将基于既定的行为征区检测标准情绪,这表明通过头部,颈部,耳朵,枪口和眼睛位置的情绪影响。系统在验证集上显示了69和74之间的精度,证明可以使用自主智能系统预测动物中的情绪。它是一个概念方法的第一个证明,可以在很多方面增强。这样的系统具有多种应用,包括在生长动物情绪的进一步研究以及兽医领域,以确定马匹或其他牲畜的身体福利。

Understanding Mobile GUI: from Pixel-Words to Screen-Sentences
Authors Jingwen Fu, Xiaoyi Zhang, Yuwang Wang, Wenjun Zeng, Sam Yang, Grayson Hilliard
移动电话的无处不在使移动GUI了解重要任务。此域中的最先前的作品需要人类创建的屏幕元数据。观看推论期间的层次结构,遗憾的是通常无法获得或可靠以获得GUI理解。灵感来自于NLP任务中变形金刚的令人印象深刻的成功,针对纯粹基于愿景的GUI理解,我们将单词句子的概念扩展到像素单词屏幕句子,并提出了一种移动GUI理解架构像素词来屏幕句子PW2S。与个人单词类似,我们将像素单词定义为原子视觉组件文本和图形组件,这在视觉上横跨各种设计样式的屏幕截图。从屏幕截图中提取的像素单词将聚合到屏幕句中,用屏幕变换器建议模拟它们的关系。由于像素单词被定义为原子视觉组件,因此显着减少了它们的视觉外观和语义之间的模糊性。我们能够利用培训数据中可用的元数据来自动为像素字产生高质量注释。基于公共RICO数据集建立了具有像素字注释的数据集,RICO PW的屏幕截图,这将被释放为有助于解决该领域缺乏高质量的培训数据。我们训练一个探测器来从这个数据集上的屏幕截图中提取像素单词,并在推理期间实现元数据免费GUI了解。我们进行实验,并表明像素字可以在Rico PW上提取很好地提取,并良好地广泛地通过我们自己收集的新数据集P2S UI。在包括关系预测,可点击性预测,屏幕检索和应用类型分类的GUI理解任务中进一步验证了PW2S的有效性。

Hyperspectral Image Denoising with Log-Based Robust PCA
Authors Yang Liu, Qian Zhang, Yongyong Chen, Qiang Cheng, Chong Peng
它是一种具有挑战性的任务,可以从高光谱图像HSIS中去除重和混合类型的噪声。在本文中,我们提出了一种用于HSI去噪的新颖的非耦合方法,其采用日志确定秩近似和新颖的ELL 2,LOG标准,分别限制组件矩阵的低等级或列明智的稀疏性质。 ELL 2,日志正常化收缩问题,我们开发了一个高效,封闭的表格解决方案,该解决方案名为ELL 2,日志收缩算子,可以在其他问题中使用。关于模拟和实际HSIS的广泛实验证明了所提出的方法在去噪HSIS中的有效性。

Review on Indoor RGB-D Semantic Segmentation with Deep Convolutional Neural Networks
Authors Sami Barchid, Jos Mennesson, Chaabane Dj raba
许多研究工作侧重于利用深度卷积神经网络,特别是语义分割所执行的视觉任务中室内深度传感器的互补几何信息。这些作品应对称为RGB D室内语义分割的特定视觉任务。此任务的挑战和结果解决方案与其标准的RGB对应物不同。这导致新的积极研究主题。本文的目的是介绍RGB D室内语义分割的深度卷积神经网络领域。本综述提出了最受欢迎的公共数据集,提出了最近贡献所采用的策略的分类,评估现有技术的表现,并讨论了未来作品的剩余挑战和有希望的指示。

Tab.IAIS: Flexible Table Recognition and Semantic Interpretation System
Authors Marcin Namysl, Alexander M. Esser, Sven Behnke, Joachim K hler
表提取是一个重要但仍未解决的问题。在本文中,我们引入了一个柔性端到终点表提取系统。我们开发了两个基于规则的算法,执行完整的表识别过程,并支持科学文献中最常用的表格格式。此外,为了将语义信息提取到表识别过程中,我们开发了一种基于曲线的表解释方法。我们对挑战表识别基准机构委员会2013年和ICDAR进行了广泛的实验。我们的表识别方法实现了现有方法竞争力的结果。此外,我们的完整信息提取系统展出了0.7380分的高F1得分,证明了我们的方法的效用。

Few-Shot Learning with Part Discovery and Augmentation from Unlabeled Images
Authors Wentao Chen, Chenyang Si, Wei Wang, Liang Wang, Zilei Wang, Tieniu Tan
很少拍摄学习是一个具有挑战性的任务,因为只有少数实例才能识别看不见的课程。缓解这个问题的一种方法是通过Meta学习获得强烈的感应偏见,在类似的任务上。在本文中,我们表明可以从未标记图像的平面集合中学习这种感应偏差,并将其被实例化为所看到和看不见的类之间的可转移表示。具体地,我们提出了一种基于部分的自我监督的表示学习方案,以通过最大化图像的相似性来学习可转移表示。为了减轻由数据稀缺引起的少量拍摄分类中的过度装备,我们进一步提出了通过从基础数据集检索额外图像的零件增强策略。我们对Miniimagenet和Tieredimagenet基准进行系统研究。值得注意的是,我们的方法产生了令人印象深刻的结果,优于以7.74和9.24的5路1拍摄和5路5拍摄设置,优于先前的最佳无人监督方法,与艺术态度的监督方法相当。

TransNAS-Bench-101: Improving Transferability and Generalizability of Cross-Task Neural Architecture Search
Authors Yawen Duan, Xin Chen, Hang Xu, Zewei Chen, Xiaodan Liang, Tong Zhang, Zhenguo Li
最近神经结构搜索NAS的突破将Field S研究范围扩展到更广泛的视觉任务和更多样化的搜索空间。虽然现有的NAS方法主要是在单一任务上设计架构,但超越单个任务搜索的算法正在浪涌,以跨各种任务追求更有效和普遍的解决方案。其中许多人利用转移学习并寻求保护,重用和改进网络设计知识,以实现未来任务的更高效率。然而,交叉任务NAS的巨大的计算成本和实验复杂性对此方向的宝贵研究施加了障碍。现有的NAS基准测试全部关注一种类型的视觉任务,即分类。在这项工作中,我们提出了跨越七个任务的网络性能的基准数据集,涵盖分类,回归,像素级预测和自我监督任务的基准数据集。这种多样性提供了在任务中传输NAS方法的机会,并允许更复杂的转移方案进化。我们探索两个基本上不同类型的搜索空间单元格级搜索空间和宏观级搜索空间。在七项任务中评估了7,352个骨干,提供了51,464种培训型号,具有详细培训信息。通过Transnas Bench 101,我们希望鼓励出现卓越的NAS算法,将交叉任务搜索效率提高和概括到下一个级别。我们的数据集文件将在Mindspore,Vega上获得。

Estimates of maize plant density from UAV RGB images using Faster-RCNN detection model: impact of the spatial resolution
Authors Kaaviya Velumani, Raul Lopez Lozano, Simon Madec, Wei Guo, Joss Gillet, Alexis Comar, Frederic Baret
早期植物密度是确定在鉴于环境条件和管理实践下基因型的命运的重要特征。使用从UAV拍摄的RGB图像可以在具有改进的吞吐量,准确性和对工厂本地化的领域中取代传统的视觉计数。然而,需要高分辨率的HR图像来检测早期阶段存在的小植物。本研究探讨了图像接地采样距离GSD对3 5叶阶段的玉米工厂检测性能的影响,使用更快的RCNN。 HR GSD 0.3cm收集的数据超过6个对比点用于模型培训。使用高和低GSD 0.6CM分辨率在高低GSD 0.6CM分辨率下获得的两个附加站点用于模型评估。结果表明,当本机HR图像用于训练和验证时,RCNN更快地实现了非常好的工厂检测和计数RRMSE 0.08性能。类似地,观察到良好的性能RRMSE 0.11当模型训练通过通过向下采样天然训练HR图像获得的合成低分辨率LR图像,并应用于合成的LR验证图像。相反,当模型在给定的空间分辨率上培训并应用于另一个空间分辨率时,获得差的性能。对HR和LR图像混合的培训允许在原生HR RRMSE 0.06和合成LR RRMSE 0.10图像上获得非常好的表演。然而,在天然LR图像RRMSE 0.48上仍观察到非常低的性能,主要是由于天然LR图像的质量差。最后,基于GaN生成的对冲网络的先进的超分辨率方法,其介绍从天然HR图像导出的额外纹理信息被应用于天然LR验证图像。结果显示了与双方提高采样方法相比的一些显着改进RRMSE 0.22。

DTNN: Energy-efficient Inference with Dendrite Tree Inspired Neural Networks for Edge Vision Applications
Authors Tao Luo, Wai Teng Tang, Matthew Kay Fei Lee, Chuping Qu, Weng Fai Wong, Rick Goh
深神经网络DNN在计算机视觉CV中取得了显着成功。然而,DNN模型的培训和推断是存储器和计算密集型,在能耗和硅区域方面产生显着的开销。特别地,推理比训练更具成本敏感,因为培训可以与强大的平台脱机,而推断可能必须在具有受约束的外形因素的电池供电设备上完成,特别是对于移动或边缘视觉应用。为了加速DNN推断,提出了模型量化。然而,以前的作用仅关注量化率而不考虑操作效率。在本文中,我们提出了基于DendRite树的神经网络DTNN,用于通过激活量化实现的表查找操作。在DTNN中,昂贵的权重访问和算术计算被消除了推断。我们对各种DNN型号进行了实验,如Lenet 5,MobileNet,VGG,以及具有不同数据集的Reset,包括Mnist,CiFar10 CiFar100,SVHN和ImageNet。 DTNN分别在ImageTENET上实现了显着的节能19.4倍和64.9倍的改进,分别具有可忽略的准确性损失。为了进一步验证DTNN的有效性并与Edge Vision的艺术状态的状态进行比较,我们使用从架子FPGA设计和实现基于DTNN的MLP图像分类器。结果表明,具有更高精度的FPGA上的DTNN可以达到更好的能量消耗和延迟的数量级和延迟,而这些艺术的低能量方法是使用ASIC芯片的情况。

Small and large scale critical infrastructures detection based on deep learning using high resolution orthogonal images
Authors P rez Hern ndez Francisco, Rodr guez Ortega Jos , Benhammou Yassir, Herrera Francisco, Tabik Siham
在诸如安全性,异常检测,土地利用规划和土地利用变化检测之类的几个领域,关键基础设施的检测具有很高的重要性。然而,在天线和卫星图像中检测的关键基础设施检测仍然是一个挑战,因为每个尺寸完全不同,并且需要正确识别不同的空间分辨率。迄今为止,没有特殊的数据集培训关键基础架构探测器。本文介绍了一个智能数据集以及分辨率独立关键基础设施检测系统。特别是,以检测模型的性能为指导,我们建立了一个组织成两种尺度,小而大规模的数据集,并设计了两个阶段的不同规模关键基础设施Detvdsci方法的深度学习检测。 DetDDCI方法首先使用分类模型确定输入图像缩放级别,然后使用适当的比例检测模型分析输入图像。我们的实验表明,Detdsci方法在基线探测器方面达到了高达37,53F1的改进。

PAS-MEF: Multi-exposure image fusion based on principal component analysis, adaptive well-exposedness and saliency map
Authors Diclehan Karakaya, Oguzhan Ulucan, Mehmet Turkan
高动态范围HDR成像使得能够永生化类似的自然场景,类似于人类观察者所感知的方式。由于庞大的低动态范围LDR捕获显示设备,由于自然场景的巨大动态范围,可能不会在图像中保存显着的细节。为了最大限度地减少信息损失并为LDR屏幕的图像产生高质量的HDR,本研究提出了一种高效的多曝光融合MEF方法,其简单而有效的重量提取方法依赖于主成分分析,适应性井暴露和显着性图。这些重量映射后来通过引导滤波器精制,并通过采用金字塔分解来进行融合。现有技术的实验比较表明,该方法产生了非常强烈的统计和视觉结果。

GAN for Vision, KG for Relation: a Two-stage Deep Network for Zero-shot Action Recognition
Authors Bin Sun, Dehui Kong, Shaofan Wang, Jinghua Li, Baocai Yin, Xiaonan Luo
零射击动作识别可以通过在样本中探索共同的潜在语义表示,识别在培训中不可用的看不可用的样本。然而,大多数方法都忽略了行动类之间的内涵关系和延伸关系,这导致零射击学习的普遍能力差。此外,学习的分类器倾向于预测所看到的样本,这导致分类性能差。为了解决上述问题,我们提出了一个用于零射击动作识别的两个阶段深神经网络,其包括用作作为分类阶段的采样阶段的特征生成子网络和图形关注子网络。在采样阶段,我们利用由所见类的行动特征和字向量训练的生成的对抗性网络GaN,以综合看不见的类的动作特征,这可以平衡所看到的类和看不见的类的训练样本数据。在分类阶段,我们基于动作类和相关对象的字向量之间的关系来构建知识图形kg,并基于注意力机制提出了一种图形卷积网络GCN,它动态更新了动作类和对象之间的关系,增强了零射击学习的泛化能力。在两个阶段,我们都使用Word Vectors作为来自所看到的类别的特征生成和分类器概括的桥梁到看不见的类。我们将我们的方法与UCF101和HMDB51数据集上的最先进方法进行了比较。实验结果表明,我们所提出的方法提高了培训的分类器的分类性能,实现了更高的准确性。

ST-HOI: A Spatial-Temporal Baseline for Human-Object Interaction Detection in Videos
Authors Meng Jiun Chiou, Chun Yu Liao, Li Wei Wang, Roger Zimmermann, Jiashi Feng
检测人体相互作用Hoi是朝着对机器综合了解的重要一步。在检测非颞型HOIS时,坐在静态图像的椅子上是可行的,甚至对于人类来说是不可能的,即使是猜测时间相关的HOIS,例如,从单个视频框架开口,邻近帧发挥着重要作用。然而,仅在仅操作静态图像上运行的传统HOI方法用于预测时间相关的交互,这基本上猜测没有时间上下文,并且可能导致子最佳性能。在本文中,我们通过用明确的时间信息检测基于视频的地点来弥合这个差距。首先表明,由于特征不一致问题,公共动作检测基线的天真时间感知变体不适用于视频的HOI。然后,我们提出了一个简单而有效的体系结构,名为Spatial Temporal Hoi检测ST Hoi,利用了人类和对象轨迹,正确局部化的视觉特征和空间时间掩蔽功能。我们构建了一个新的vidhoi,vidhoi被称为vidhoi,我们提出的方法用作固体基线。

Deep High-Resolution Representation Learning for Cross-Resolution Person Re-identification
Authors Guoqing Zhang, Yu Ge, Zhicheng Dong, Hao Wang, Yuhui Zheng, Shengyong Chen
人物RE识别RE ID通过不同的相机与相同的身份匹配人物图像的问题。在实际应用中,由于相机性能和摄像机之间的距离和感兴趣的人,捕获的人物图像通常具有各种分辨率。我们将此问题称为交叉解决方案RE识别,这为正确匹配带来了巨大的挑战。在本文中,我们提出了一个深度高分辨率伪暹罗框架PS HRNet来解决上述问题。具体而言,为了恢复低分辨率图像的分辨率并合理地使用特征映射的不同信道信息,我们引入和创新VDSR模块与频道注意力CA机制,命名为VDSR CA.然后,我们通过设计新颖的表示头来提取名为HRNET REID的鉴别功能来改建HRNET。此外,构造伪暹罗框架以降低低分辨率图像和高分辨率图像之间的特征分布的差异。五个交叉解决方案数据集的实验结果验证了我们提出的方法的有效性。与最先进的方法相比,我们所提出的PS HRNET分别在MLR市场1501,MLR CUHK03,MLR VIPER,MLR Dukemtmc Reid和鱼子酱数据集上改善了3.4,6.2,2.5,1.1和4.2。我们的代码可用于URL

Improving Few-shot Learning with Weakly-supervised Object Localization
Authors Inyong Koo, Minki Jeong, Changick Kim
很少的镜头学习往往涉及基于度量的基于学习的分类器,其通过比较提取的特征向量和类表示之间的距离来预测图像标签。但是,在特征提取器的后端应用全局汇总可能不会产生正确侧重于类对象的嵌入。在这项工作中,我们提出了一种新的框架,通过从图像的类相关区域提取功能来生成类表示。给出了具有图像级标签的少数示例性图像,我们的框架首先通过在空间分解图像和其类原型之间的相似性来定向类对象。然后,通过本地化结果实现增强的类表示。我们还提出了一种损失功能,以增强精致特征的区别。我们的方法优于MiniimageNet和Tieredimagenet基准的基线少量拍摄模型。

High-Frequency aware Perceptual Image Enhancement
Authors Hyungmin Roh, Myungjoo Kang
在本文中,我们介绍了一种新的深度神经网络,适用于多尺度分析,提出有效的模型无话学方法,帮助网络提取来自高频域的信息来重建更清晰的图像。我们的模型可以应用于多尺度图像增强问题,包括去噪,去夹和单图像超分辨率。 SIDD,FlickR2K,DIV2K和REDS数据集的实验表明,我们的方法在每项任务上实现了最新性能的状态。此外,我们表明我们的模型可以克服在现有的PSNR导向方法中通常观察到的过平滑问题,并通过施加对抗性训练来产生更自然的高分辨率图像。

SBEVNet: End-to-End Deep Stereo Layout Estimation
Authors Divam Gupta, Wei Pu, Trenton Tabor, Jeff Schneider
准确的布局估计对于机器人应用中的规划和导航是至关重要的,例如自动驾驶。在本文中,我们介绍了立体声鸟瞰ViewNetwork SBEVNET,这是一种新颖的监督结束,用于估计一对立体声图像的鸟瞰图布局。虽然我们的网络从最先进的差异估计中重用了一些构建块,但我们表明显式深度估计既不足够也不是必要的。相反,良好的内部鸟瞰特征表示的学习对于布局估计是有效的。具体地,我们首先使用立体图像的特征来生成差异特征卷,然后将其投影到俯视坐标坐标。这为我们提供了有关场景结构的粗粒粒度信息。我们还应用逆透视图映射IPM以将输入图像及其功能映射到俯视图。这为我们提供了细粒度的纹理信息。使用预计的功能卷连接IPM功能创建丰富的鸟瞰图表示,这对于空间推理有用。我们使用此表示来估计BEV语义地图。此外,我们表明,使用IPM功能作为立体声功能的监控信号可以提高性能。我们在两个数据集中展示了我们的凯蒂数据集和来自Carla Simulator的合成生成的数据集。对于这两个数据集,与基线技术相比,我们建立了最先进的性能。

A Geometry-Informed Deep Learning Framework for Ultra-Sparse 3D Tomographic Image Reconstruction
Authors Liyue Shen, Wei Zhao, Dante Capaldi, John Pauly, Lei Xing
深度学习提供了巨大的机会来增加生物医学成像的武器,尽管其设计和实施具有潜在的缺陷。从根本上讲,大多数深度学习模型都是完全通过数据驱动的,而不考虑任何先验知识,这显着提高了神经网络的复杂性并限制了应用范围和模型概括性。在这里,我们建立了一个关于超稀疏3D断层图像重建的几何信息深入学习框架。我们介绍了一种用于积分成像系统的几何前望的新机制。我们证明,已知前沿的无缝包容对于提高具有超稀疏采样的3D容量计算断层摄影成像的性能至关重要。该研究开设了用于数据驱动生物医学成像的新途径,并承诺为各种临床成像和图像引导干预提供基本改进的成像工具。

Towards Compact Single Image Super-Resolution via Contrastive Self-distillation
Authors Yanbo Wang, Shaohui Lin, Yanyun Qu, Haiyan Wu, Zhizhong Zhang, Yuan Xie, Angela Yao
卷积神经网络CNNS对于超级分辨率SR非常成功,但通常需要具有沉重的内存成本和计算开销的复杂架构,显着限制了它们对资源限制设备的实际部署。在本文中,我们提出了一种新型对比自蒸馏CSD框架,同时压缩并加速架子SR模型各种各样的各种各样的架子。特别地,可以首先从目标教师网络作为一个紧凑的学生网络来构造信道分离超分辨率网络。然后,我们提出了一种新的对比损失,通过显式知识转移来提高SR图像和PSNR SSSIM的质量。广泛的实验表明,所提出的CSD方案有效地压缩并加速了诸如EDSR,RCAN和Carn等若干标准SR模型。代码可用

BoundarySqueeze: Image Segmentation as Boundary Squeezing
Authors Hao He, Xiangtai Li, Kuiyuan Yang, Guangliang Cheng, Jianping Shi, Yunhai Tong, Zhengjun Zha, Lubin Weng
我们提出了一种用于对象和场景的细粒度高质量图像分割的新方法。通过从形态学图像处理技术的扩张和侵蚀的启发,我们将像素级分割问题视为挤压对象边界。从这个角度来看,我们提出了TextBF边界挤压模块一种新颖且有效的模块,该模块从内侧和外侧方向挤压对象边界,导致精确的掩模表示。为了生成这样的挤压表示,我们提出了一种新的双向流动的翘曲过程和设计特定损耗信号来监督学习过程。边界挤压模块可以通过在现有模型的顶部构建时,可以轻松应用于实例和语义分段任务作为即插即用模块。我们表明,我们的简单而有效的设计可能会导致几个不同的数据集上的高质量结果,我们还在边界上提供了几种不同的指标,以证明对以前的工作的有效性。此外,所提出的模块是轻量的,因此具有实际使用的可能性。我们的方法在Coco,CityCapes上产生了大的收益,对于实例和语义分割,并且在相同的设置下的准确性和速度的先前最先进的艺术尖端。代码和型号将可用。

Dynamic Dual Sampling Module for Fine-Grained Semantic Segmentation
Authors Chen Shi, Xiangtai Li, Yanran Wu, Yunhai Tong, Yi Xu
语义上下文和本地详细信息的表示是建立现代语义分割模型的基本问题。但是,在以前的作品中,语义背景和本地细节之间的相互关系并不熟练。在本文中,我们提出了一种动态的双采样模块DDSM,可以将动态亲和建模和传播语义上下文传播到本地细节,从而产生更差异的表示。具体地,动态采样策略用于稀疏地稀疏更高层中的代表性像素和通道,形成用于下层中的每个像素和信道的自适应紧凑载体。具有高语义的采样特征根据亲和力聚集,然后传播到详细的下层特征,导致细粒细分结果具有良好的保存边界。两种城市景观和Camvid数据集的实验结果验证了所提出的方法的有效性和效率。代码和模型将在URL X3HTTPS Github.com上提供Fantasticarl DDSM。

Fast and Accurate Scene Parsing via Bi-direction Alignment Networks
Authors Yanran Wu, Xiangtai Li, Chen Shi, Yunhai Tong, Yang Hua, Tao Song, Ruhui Ma, Haibing Guan
在本文中,我们提出了一种有效的方法,用于快速准确的场景解析,称为双向对准网络BialignNet。此前,一个代表性工作Bisenet Cite Bisenet使用两个不同的路径上下文路径和空间路径,以分别实现均衡学习语义和细节。但是,两条路径之间的关系并不熟练。我们认为这两条路径都可以以互补的方式互相受益。由此激励,我们通过学习流场将两个路径信息与彼此对准来提出新颖的网络。为避免噪声和语义间隙,我们介绍了一个门控流量对准模块,以以双向方式对齐两个特征。此外,为了使空间路径了解更多详细信息,我们呈现了一个边缘引导的硬像素挖掘,以监督对准的学习过程。我们的方法在验证和测试集中实现了80.1和78.5 Miou,同时以全分辨率输入运行30 FPS。代码和型号将在URL上使用

Feature Space Targeted Attacks by Statistic Alignment
Authors Lianli Gao, Yaya Cheng, Qilong Zhang, Xing Xu, Jingkuan Song
通过向图像添加人类难以察觉的扰动,DNN可以容易地愚弄。作为主流方法之一,特征空间通过调制其中间特征映射来定位扰动图像,用于中间源和目标特征之间的差异被最小化。然而,目前选择像素明智的欧几里德距离的测量差异是可疑的,因为它不合理地对源和目标特征产生了空间一致性约束。直观地,无论猫位于图像的左侧或右侧,图像都可以分类为猫。为了解决这个问题,我们建议使用统计对齐来衡量这种差异。具体而言,我们设计了两种称为配对方向对准攻击的新方法和全局明智的对齐攻击,该方法试图通过高阶统计数据来测量特征图之间的相似性,其具有翻译不变性。此外,我们系统地分析了具有多种困难以获得高度可靠的攻击的层面可转移性。广泛的实验验证了我们所提出的方法的有效性,并且它通过大边距占据了最新的算法状态。我们的代码公开提供

FILTRA: Rethinking Steerable CNN by Filter Transform
Authors Bo Li, Qili Wang, Gim Hee Lee
可操作的CNN在网络架构中强加了转换不变性或设备的增强程度,以增强数据对数据的几何转换和减少过度装备的网络鲁棒性。通过在过去的几十年中,通过增强滤波器来构造可操纵过滤器的直观和广泛使用的技术,在过去的几十年中,将其被称为滤波器。最近,已经从组表示理论的方面研究了可控CNN的问题,其揭示了可转向内核功能的功能空间结构。但是,尚不清楚该理论与过滤器变换技术有关。在本文中,我们表明由滤波器变换构成的内核也可以在组表示理论中解释。这种解释有助于完成可操纵的CNN理论拼图,并提供一种新颖简单的方法来实现可转向卷积运营商。实验在多个数据集上执行,以验证所提出的方法的可行性。

TIPCB: A Simple but Effective Part-based Convolutional Baseline for Text-based Person Search
Authors Yuhao Chen, Guoqing Zhang, Yujiang Lu, Zhenxing Wang, Yuhui Zheng, Ruili Wang
文本的人员搜索是图像检索领域的子任务,其旨在根据给定的文本描述检索目标人物图像。两种方式之间的重要特征差距使得这项任务非常具有挑战性。许多现有方法尝试利用本地对齐来解决细粒度级别中的此问题。但是,大多数相关方法都会引入额外的模型或复杂的培训和评估策略,这很难在现实的情况下使用。为了促进实际应用,我们提出了一个简单但有效的结束,用于基于文本的人员搜索的最终学习框架,名为Tipcb i.e.,文本图像部分的卷积基线。首先,提出了一种新的双路径局部对准网络结构来提取视觉和文本本地表示,其中图像被水平分割,并且文本自适应地对准。然后,我们提出了一种多阶段跨模型匹配策略,它消除了来自三个特征级别的模态差距,包括低电平,本地级别和全局级别。广泛的实验在广泛使用的基准数据集CUHK Pedes上进行,并验证了我们的方法在前1名,前5名和前10名方面优于3.69,2.95和2.31的现有技术。我们的代码已被释放

Unsupervised Scale-consistent Depth Learning from Video
Authors Jia Wang Bian, Huangying Zhan, Naiyan Wang, Zhichao Li, Le Zhang, Chunhua Shen, Ming Ming Cheng, Ian Reid
我们提出了一种单眼深度估计器SC深度,只需要未标记的视频进行训练,并在推理时间内实现比例一致的预测。我们的贡献包括我提出了一种几何一致性损失,这惩罚了相邻视图之间的预测深度的不一致性,我们提出了一个自我发现的掩码,以自动定位违反潜在静态场景假设的移动对象,并在训练中引起嘈杂的信号我们证明了每个组分具有详细消融研究的功效,并显示Kitti和NYUV2数据集的高质量深度估计。此外,由于规模一致预测的能力,我们表明我们的单眼培训的深网络易于集成到ORB SLAM2系统中,以实现更强大和准确的跟踪。拟议的混合伪RGBD Slam表示在基蒂的引人注目的结果,它概括到Kaist数据集没有额外的训练。最后,我们提供了多项演示进行定性评估。

Polarimetric Spatio-Temporal Light Transport Probing
Authors Seung Hwan Baek, Felix Heide
在反映朝向检测器之前,光可以与不同材料类型的多个场景表面进行复杂的相互作用。在此运输期间,每个表面反射和传播在最终到达检测器的光子的特性中被编码,包括行进时间,方向,强度,波长和极化。传统的成像系统通过将光的所有其他尺寸集成为单个量来捕获强度,将该丰富的场景信息藏在累积的测量中。现有方法可以解开它们的空间和时间尺寸,加强几何场景理解。然而,与几何属性共同检查Polariemetric材料属性是一个开放的挑战,可以实现超越几何理解的前所未有的能力,从而允许包含材料依赖性语义。在这项工作中,我们提出了一种计算光传输成像方法,其捕获场景的空间和时间上解析的完整偏振响应。我们的方法铰接在一个新的7D张量理论的光传输。我们发现偏振张量尺寸中的低等级结构,并提出了一种数据驱动的旋转椭圆形方法,该方法学习利用偏振结构的冗余。我们将我们的理论实例化了两种成像原型Spatio Polariemetric成像和同轴时间偏振成像。这允许我们将场景光传输分解为暂时,空间和完整的偏振尺寸,该尺寸揭示隐藏到传统方法的场景属性。我们验证了我们对不同任务的应用的适用性,包括使用地下散射的形状重建,通过散射介质,不具有偏振的多弹簧传输,与极化的偏振,以及晶体的散度偏振分解。

Centimeter-Wave Free-Space Time-of-Flight Imaging
Authors Seung Hwan Baek, Noah Walsh, Ilya Chugunov, Zheng Shi, Felix Heide
深度摄像机正在作为基石模型,具有不同的应用程序,可直接或间接地依靠测量深度,包括个人设备,机器人和自动驾驶车辆。尽管TOF方法的飞行时间推动了这些应用,但TOF方法的精确度和稳健性是通过依赖于照片转换后的光子时间标记或调制的限制。成功的光学调制方法被限制了光纤耦合调制,具有大的耦合损耗或具有亚CM范围的干涉调制,干涉方法和TOF方法之间的精度间隙大于三个大小。在这项工作中,我们缩短了这种差距并提出了一种计算成像方法,用于光转换之前的所有光学自由空间相关性,以实现微米级深度分辨率,以鲁棒性与具有传统硅强度传感器的表面反射率和环境光。为此,我们解决了在GHz率和计算阶段展示中调制的两个技术挑战。我们提出了一种具有谐振偏振调制器的成像方法,并设计了一种新的光学双通频率倍增,其在10GHz上实现高调制对比度。同时,厘米波调制与小调制带宽一起呈现现有相位展开方法无效。我们用一个神经相位展开方法来解决这个问题,该方法利用相邻包裹通常高度相关。我们验证了模拟和实验中提出的方法,在那里实现了微米级深度精度。我们展示了精确的深度感测,独立于表面纹理和环境光,并与现有的模拟解调方法进行比较,我们略高于所有测试场景。

TransLoc3D : Point Cloud based Large-scale Place Recognition using Adaptive Receptive Fields
Authors Tian Xing Xu, Yuan Chen Guo, Yu Kun Lai, Song Hai Zhang
地方识别在自主驾驶和机器人导航领域起着重要作用。虽然已经提出了许多点云的方法并取得了有希望的结果,但其中很少有人考虑对象的尺寸差异。对于像行人和车辆等小物体,大量的接收领域将捕获无关的信息,而小的接收字段将无法为大型物体(如建筑物)编码完整的几何信息。我们认为固定的接收领域不太适合地识别,并提出一种新颖的自适应接收领域模块ARFM,其可以基于输入点云自适应地调节接收场的大小。我们还提出了一种名为rsoloc3d的新型网络架构,以获取点云的判别全球描述函数为地点识别任务。 rsoloc3d由3D稀疏卷积模块,ARFM模块,外部变压器网络,旨在捕获长距离依赖性和NetV​​lad层。实验表明,我们的方法优于现有技术的现有状态,在牛津机器人数据集上的平均召回1的平均召回1的提高,B.D。数据集。

Multi-view 3D Reconstruction of a Texture-less Smooth Surface of Unknown Generic Reflectance
Authors Ziang Cheng, Hongdong Li, Yuta Asano, Yinqiang Zheng, Imari Sato
恢复具有通常未知表面反射率的纯净纹理的3D几何形状,例如,较少的表面反射率。非朗伯提亚被认为是多视图重建中的一个具有挑战性的任务。主要障碍围绕建立截面对应关系,其中违反了光度常量。本文提出了一种简单实用的解决方案,以克服基于CO位的相机光扫描仪设备来克服这一挑战。与现有解决方案不同,我们没有明确解决对应。相反,我们认为问题通常是通过多视图几何和光度约束的良好构成的,并且可以从少量输入视图解决。我们将重建任务制定为表面几何形状和反射率的关节能量最小化。尽管这种能量高度凸起,但我们开发了一种优化算法,即使从随机初始化也是强大地恢复全局最佳的形状和反射率。对模拟和实际数据的广泛实验已经验证了我们的方法,并讨论了可能的未来扩展。

SiamMOT: Siamese Multi-Object Tracking
Authors Bing Shuai, Andrew Berneshawi, Xinyu Li, Davide Modolo, Joseph Tighe
在本文中,我们专注于改善在线多目标跟踪MOT。特别是,我们介绍了一个基于区域的暹罗多对象跟踪网络,我们命名SiamMot。 SiamMot包括运动模型,其估计两个帧之间的实例S移动,使得检测到的实例相关联。为了探讨运动建模如何影响其跟踪能力,我们呈现了暹罗跟踪器的两个变体,其中一个隐式模型运动和一个明确模拟它的模式。我们对三个不同的MOT数据集MOT17,TAO PANERS和CALTECH路边行人进行了广泛的定量实验,展示了运动模型对MOT的重要性以及暹罗的能力基本上优于现有技术。最后,SiamMot还优于ACM MM 20的获奖者20对静脉数据集的致命挑战。此外,SiamMot是有效的,它在一个现代GPU上以720p视频运行17 FPS。 CODES有URL提供

VISITRON: Visual Semantics-Aligned Interactively Trained Object-Navigator
Authors Ayush Shrivastava, Karthik Gopalakrishnan, Yang Liu, Robinson Piramuthu, Gokhan T r, Devi Parikh, Dilek Hakkani T r
互动机器人导航照片现实环境面临挑战潜视和语言导航VLN,但另外,他们需要培训以处理对话的动态性质。但是,在协同愿景和对话导航CVDN中的研究,其中导航器与自然语言指南相互作用,以达到目标,将对话历史视为VLN样式静态指令。在本文中,我们介绍了通过培训并在环境和对话历史之间识别和关联的对象级概念和语义,更适合CVDN固有的互动制度的导航员,II通过模仿学习识别何时互动与导航何时识别和关联对象级概念和语义。二进制分类头。我们与探讨进行广泛的消融,以获得实证洞察力并提高CVDN的性能。探讨与静态CVDN排行榜上的模型具有竞争力。我们还提出了一般性的互动制度来微调,评估争论和未来的这种模型,具有预训练的指南进行适应性。

SRH-Net: Stacked Recurrent Hourglass Network for Stereo Matching
Authors Hongzhi Du, Yanyan Li, Yanbiao Sun, Jigui Zhu, Federico Tombari
成本聚合策略在基于学习的立体声匹配任务中显示了一个至关重要的作用,其中3D卷积滤波器获得了最新的艺术状态,但需要密集的计算资源,而2D操作需要较少的GPU存储器,但对域移位敏感。在本文中,我们将3D卷积滤波器使用的4D立方成本量与差异方向的顺序成本映射分离,而不是通过利用经常性成本聚集策略来处理它。此外,提出了一种新型复发模块,堆叠复发性沙漏SRH,以处理每个成本图。我们的沙漏网络是基于门控复发单元Grus和Down上采样层构建的,提供Grus较大的接收领域。然后将两个沙漏网络堆叠在一起,而通过跳过连接处理多尺度信息,以增强Textublifuel区域中的流水线的性能。所提出的架构在结束到结束管道中实现,并在公共数据集上进行评估,与使用堆叠的沙漏3D CNN的PSMNET在没有准确度的劣化的情况下将GPU存储器消耗降低了56.1。然后,我们进一步展示了在几个高分辨率对上提出的方法的可扩展性,而预先学习的方法通常由于内存约束而失败。代码在URL发布

Pan-sharpening via High-pass Modification Convolutional Neural Network
Authors Jiaming Wang, Zhenfeng Shao, Xiao Huang, Tao Lu, Ruiqian Zhang, Jiayi Ma
最现有的基于深度学习的PAN锐化方法具有若干广泛认可的问题,例如光谱失真和空间纹理增强不足,我们提出了一种基于高通修改块的新型泛锐化卷积神经网络。与现有方法不同,所提出的块被设计用于学习高通信息,导致增强多光谱分辨率图像的每个频带中的空间信息。为了便于在视觉上吸引人的PAN锐化的图像中,我们提出了一种感知损失功能,并进一步优化了基于近红外空间中的高级特征的模型。实验证明了所提出的方法的优越性,与艺术泛锐化方法的状态相比,定量和定性。拟议的模型是开放的

TRACE: A Differentiable Approach to Line-level Stroke Recovery for Offline Handwritten Text
Authors Taylor Archibald, Mason Poggemann, Aaron Chan, Tony Martinez
笔划顺序和速度在签名验证,手写识别和手写合成领域有用的功能。从离线手写文本中恢复这些功能是一个具有挑战性和研究的问题。我们提出了一种新的模型,称为跟踪轨迹恢复,由自适应训练的卷积编码器提出。追踪是一种可差异的方法,它使用卷积经常性神经网络CRNN从远程线路手写文本的长线推断出时间笔划信息,其中具有许多字符和动态时间翘曲DTW以对准预测和地面真理点。追踪可能是第一个培训结束的第一个系统,以结束任意宽度的整个文本,不需要使用动态示例。此外,该系统不需要图像进行任何预处理,预测也不需要任何后处理。因此,恢复的轨迹是可微分的,并且可以用作其他任务的损失函数,包括合成离线手写文本。

Elastic Shape Analysis of Brain Structures for Predictive Modeling of PTSD
Authors Yuexuan Wu, Suprateek Kundu, Jennifer S. Stevens, Negar Fani, Anuj Srivastava
越来越多的证据表明脑形态在预测和分类精神障碍方面的重要性。然而,绝大多数当前的形状方法依赖于顶点明智的分析,这可能不会成功地捕获基质结构结构的复杂性。另外,过去的作品不包括这些结构与曝光因子之间的相互作用。具有这种相互作用的预测性建模对PTSD等异质精神障碍至关重要的兴趣,其中创伤暴露与大脑形状的变化相互作用以影响行为。我们提出了一种全面的框架,通过将脑子结构表示为连续参数化表面并使用弹性形状度量来量化它们的形状差异来克服这些限制。使用弹性形状度量,我们计算子质谱数据的形状摘要,并表示其主要分数的单个形状。这些表示允许可视化工具,这些工具有助于当这些PC变化时的本地化更改。随后,这些PC,辅助曝光变量及其相互作用用于回归建模。我们将我们的方法应用于Grady Trauma项目的数据,目标是使用脑子结构的形状预测PTSD的临床测量。我们的分析在弹性形状分析下揭示了比广泛使用的方法,如顶点明智的形状分析甚至体积分析的相当大的预测力。它有助于识别与PTSD严重程度相关的脑形状中的局部变形。为了我们的知识,这是第一脑形状分析方法之一,可以无缝地整合一个伞下的预处理步骤,以提高精度,并且自然能够考虑大脑形状与额外协变量之间的相互作用,以产生临床时产生卓越的预测性能结果。

Learning Better Visual Dialog Agents with Pretrained Visual-Linguistic Representation
Authors Tao Tu, Qing Ping, Govind Thattai, Gokhan Tur, Prem Natarajan
猜测是一个两个玩家Visual对话框猜测游戏,其中播放器A询问是否有问题的序列,并根据玩家B Oracle的答案对图像中的目标对象进行最终猜测猜测。基于Dispuler和Oracle之间的此对话历史记录,猜测程序最终猜测目标对象。以前的基线Oracle模型在模型中没有任何可视信息,无法完全了解有关颜色,形状,关系等的复杂问题。最多现有的猜测工作作为一个整体对话历史,并从猜测到数据集中从头开始培训猜测器模型。这是有问题的,因为语言编码器倾向于忘记长期历史,并且在学习对象的视觉接地方面的猜测数据很小。后面的提问工作将状态跟踪机制介绍到模型中,但没有任何先前视觉语言洞察的软中间体学习。在本文中弥补这些差距,我们提出了基于Vilbert的甲骨文,猜测和质询仪,这些内容都是基于预先磨碎的视觉语言模型的vilbert。我们向Vilbert Oracle介绍了两种背景目标融合机制,以占对象内部和帧外问题。我们为Vilbert Mapber和Vilbert Rispuler提出了一个统一的框架,其中引入了国家估算器,以最佳利用Vilbert S电源对单匝引用表达理解。实验结果表明,我们提出的型号优于艺术模型的最佳状态,对于Oracle,猜测和结束到最终提问者,分别显着优于7,10,12。

Unsupervised Visual Representation Learning by Online Constrained K-Means
Authors Qi Qian, Yuanhong Xu, Juhua Hu, Hao Li, Rong Jin
集群歧视是针对无监督的代表学习的有效借口任务,这通常由两个阶段聚类和歧视组成。群集是为每个实例分配伪标签,该标签将用于学习歧视中的表示。主要挑战驻留在群集中,因为许多普遍的聚类方法例如,k表示必须以批处理模式运行,这些模式会在整个数据上进行多次迭代。最近,提出了一种均衡的在线聚类方法,即SWAV,用于代表学习。但是,该分配仅在一个小的数据子集中进行优化,这可以是次优的。为了解决这些挑战,我们首先要从距离度量学习的角度调查基于聚类的代表学习的目标。基于此,我们提出了一种基于新的基于聚类的借口任务,具有在线TextBF CoStreateDBF K M TextBF E ANS TextBF焦炭以同时学习实例之间的表示和关系。与每个群集具有完全相同的尺寸的平衡群集相比,我们只限制了集群的最小大小,以灵活地捕获固有的数据结构。更重要的是,我们的在线分配方法具有方法的理论保证,可以接近全球最佳。最后,提出了两个方差减少策略,以使集群适用于不同的增强。在不保持实例的表示,数据在焦点中的在线模式访问,而每次迭代的单个实例的视图足以展示比依赖于两个视图的对比学习方法更好的性能。关于Imagenet的广泛实验验证了我们提案的功效。代码将被释放。

3D-Aware Ellipse Prediction for Object-Based Camera Pose Estimation
Authors Matthieu Zins, Gilles Simon, Marie Odile Berger
在本文中,我们提出了一种用于粗糙相机姿势计算的方法,这是对观看条件的强大并且不需要场景的详细模型。这种方法符合在任何环境中轻松部署机器人或增强现实应用的需求越来越需要,特别是那些没有准确的3D模型和大量地面真理数据的那些。它利用深度学习技术可靠地检测对象的能力,无论观看条件如何。以前的作品也表明,椭圆云通过椭球云抽象对象场景的几何图形允许将相机姿势足够准确地计算各种应用需求。虽然有前途,但这些方法使用装配到检测边界框的椭圆形式作为成像对象的近似。在本文中,我们进一步逐步提出一种基于学习的方法,该方法检测与透视突起的3D椭圆体相干的物体的改进的椭圆近似。实验证明,由于我们的方法,所计算的姿态的准确性显着增加,并且对检测箱的边界的可变性更加坚固。这是在训练数据采集方面的努力很少的努力实现了几百次校准的图像,其中只有三个需要手动对象注释。代码和模型发布

Calibration and Uncertainty Quantification of Bayesian Convolutional Neural Networks for Geophysical Applications
Authors Lukas Mosser, Ehsan Zabihi Naeini
例如,深度神经网络在地球科学中提供众多潜在的应用,例如,可以争辩说它们是用于预测地震数据集中故障的最新方法。在定量储层表征工作流程中,通常包含预测的不确定度,因此这种地下模型应该提供校准概率和预测中相关的不确定性。已经表明,流行的深度基于学习的模型经常被错误掌握,并且由于它们的确定性性质,不提供意味着解释他们预测的不确定性。我们比较三种不同的方法来获得基于贝叶斯形式主义中的卷积神经网络的概率模型,即深融合,具体辍学和随机重量平均高斯赃物。这些方法始终应用于故障检测案例研究,其中深度集合使用独立培训的模型来提供故障概率,具体辍学代表了流行辍学技术的扩展,近似贝叶斯神经网络,最后,我们应用了赃物,最近的方法基于迷你批量随机梯度下降的贝叶斯推理等效。我们在模型校准和不确定性表示方面提供定量结果,以及合成和真实地震数据集的定性结果。我们的研究结果表明,与基线深度集成方法相比,近似贝叶斯方法,具体辍学和赃物,两者都以较低的计算成本提供良好的校准预测和不确定性属性。由此产生的不确定性还提供了进一步提高模型性能的可能性以及提高模型的可解释性。

Self-Organized Variational Autoencoders (Self-VAE) for Learned Image Compression
Authors M. Ak n Y lmaz, Onur Kele , Hilal G ven, A. Murat Tekalp, Junaid Malik, Serkan K ranyaz
最后到结束优化学习图像压缩,它是使用卷积变性自动化器的标准做法,具有广义分隔归一化GDN将图像转换为潜伏空间。最近,已经提出了从一组替代方案中学习最佳非线性的操作神经网络,以及通过泰勒序列近似于通过泰勒序列的任何非线性度的自组织变型,以解决卷积层的限制和固定的非线性激活的限制。在本文中,我们建议用自组织的运算层替换变形AutoEncoder中的卷积和GDN层,并提出了一种新颖的自组织变形AutoEncoder自我vae架构,其受益于更强的非线性。实验结果表明,所提出的自我VAE在速率失真性能和感知图像质量方面产生改善。

Adversarial Attack Driven Data Augmentation for Accurate And Robust Medical Image Segmentation
Authors Mst. Tasnim Pervin, Linmi Tao, Aminul Huq, Zuoxiang He, Li Huo
分割被认为是医学图像分析中的一个非常重要的任务。由于深入学习模型以高性能的行为接管,这项任务已经更容易。然而,深度学习模型对大数据的依赖性证明它是由于数据样本不足的医学图像分析的障碍。已经使用了几种数据增强技术来缓解此问题。我们通过引入对抗性学习攻击技术,特别是快速梯度标志法FGSM来提出一种新的增强方法。此外,我们还介绍了反向FGSM InvFgsm的概念,它以FGSM的相反方式用于数据增强。这两种方法共同努力,提高分割准确性,并帮助模型造成对抗对抗攻击的鲁棒性。实验的总体分析表明对抗性机器学习的新颖利用以及鲁棒性增强。

Security in Next Generation Mobile Payment Systems: A Comprehensive Survey
Authors Waqas Ahmed, Amir Rasool, Jamel Nebhen, Neeraj Kumar, Faisal Shahzad, Abdul RehmanJaved, Thippa Reddy Gadekallu, Zunera Jalil
现金支付仍然是几个市场的王,几乎所有发展中国家的支付超过了90份。在目前的时代,手机的用法非常普通。移动电话已成为许多用户的不可分割的朋友,不仅仅是仅仅是通信工具。由于多方面的使用和可负担性,每次随后的人都严重依赖于它们。每个人都希望通过使用她的手机来管理他的日常交易和相关问题。随着移动特定安全性的增加和进步,威胁也在不断发展。在本文中,我们对移动电话的各种安全模型提供了调查。我们探索多种提出的移动支付系统MPS,其技术和比较,支付方法,MPS中涉及的不同安全机制,并提供了MPS中的加密技术,认证方法和防火墙的分析。我们还呈现了当前的手机安全的挑战和未来方向。

Matching Targets Across Domains with RADON, the Re-Identification Across Domain Network
Authors Cassandra Burgess, Cordelia Neisinger, Rafael Dinner
我们提出了一种小说卷积神经网络,该网络学会匹配从不同观点或由不同的光学传感器拍摄的对象的图像。我们对域网络氡的重新识别来自不同域的相似度的不同域的输入图像对。我们的方法在暹罗网络上延伸了以前的工作,并将它们修改到更具挑战性的用例,包括低和没有射击学习,其中一些特定目标的图像可供培训。 Radon在没有射击学习环境中展示了越野车辆匹配和跨领域人识别的强烈性能。

Learning Generative Prior with Latent Space Sparsity Constraints
Authors Vinayak Killedar, Praveen Kumar Pokala, Chandra Sekhar Seelamantula
我们使用深生成的先前模型来解决压缩感测的问题,并考虑线性和学习的非线性传感机制,其中非线性人员涉及完全连接的神经网络或卷积神经网络。最近,有人认为自然形象的分布不在单个歧管中,而是躺在几个子苗条的联盟中。我们提出了一种稀疏驱动的潜在空间采样SDLSS框架,并开发了一个近端元学习PML算法来强制潜伏空间中的稀疏性。 SDLS允许将发电机的范围空间视为子苗条的联盟。我们还导出了线性测量模型的SDLSS框架内的示例复杂性界限。结果表明,对于更高的压缩程度,SDLS方法比现实方法的状态更有效。我们首先考虑时尚Mnist DataSet上线性和非线性传感机制的比较,并显示学习的非线性版本优于线性。报告了与文献中提出的深压缩感测DCS框架进行了随后的比较。我们还考虑潜在空间的尺寸和稀疏因素在验证SDLS框架方面的效果。通过采用三个目标度量峰值信号对噪声比PSNR,结构相似性指数度量SSIM和重建误差重新进行性能量化来执行性能量化。

CoRSAI: A System for Robust Interpretation of CT Scans of COVID-19 Patients Using Deep Learning
Authors Manvel Avetisian, Ilya Burenko, Konstantin Egorov, Vladimir Kokh, Aleksandr Nesterov, Aleksandr Nikolaev, Alexander Ponomarchuk, Elena Sokolova, Alex Tuzhilin, Dmitry Umerenkov
胸部CT扫描的分析可用于检测受Covid 19的传染病影响的肺部部分。确定受病变影响的肺的体积对于通过疾病的严重程度制定治疗建议和优先考虑,这是必不可少的。在本文中,我们采用了一种基于使用深卷积网络的集合来采用一种方法,用于分割肺CT扫描。使用我们的型号,我们能够分段病变,评估盆栽动态,估计受病变影响的肺的相对体积,并评估肺部损伤阶段。我们的型号训练了来自不同医疗中心的数据。我们将我们模型的预测与六位经验丰富的学家进行了比较,我们的分割模型大多数都表现优于其中大部分。关于疾病严重程度分类的任务,我们的表模优于所有放射科医生。

GCNBoost: Artwork Classification by Label Propagation through a Knowledge Graph
Authors Cheikh Brahim El Vaigh, Noa Garcia, Benjamin Renoust, Chenhui Chu, Yuta Nakashima, Hajime Nagahara
文化文件的数字化的兴起提供了大规模的内容,开设AI系统的开发道路,以保护,搜索和提供文化遗产。组织此类文化内容也意味着对他们进行分类,这是现代计算机科学非常熟悉的任务。上下文信息通常是构建此类现实数据的关键,我们建议以知识图形的形式使用它。这种知识图表与内容分析相结合,增强了艺术品之间的邻近概念,因此它可以提高分类任务中的性能。在本文中,我们提出了一种新颖的使用知识图,它在注释数据和伪标记数据上构建。通过标签传播,我们通过使用图形卷积网络培训模型来提高艺术品分类,依赖于知识图的实体之间的关系。在转换学习框架之后,我们的实验表明,依赖于知识图形建模标记数据和未标记数据之间的关系允许实现最新的绘画数据集上的多个分类任务,以及在佛像的数据集上。此外,我们为难以处理不平衡数据的困难案例显示了最困难的案例,以限制知识图中具有极低程度的课程。

Bridging the Gap Between Explainable AI and Uncertainty Quantification to Enhance Trustability
Authors Dominik Seu
在深度学习和其他AI方法的巨大进步之后,更多的关注流入现代方法的其他性质,例如可解释性,公平等。在框架中相结合,如负责任的AI。两项研究方向,即可解释的AI和不确定性量化变得越来越重要,但已经到目前为止从未结合并共同探索过。在本文中,我展示了研究领域如何提供组合潜力,为什么应在这方面进行更多的研究以及如何导致AI系统的可信度增加。

Bridging Few-Shot Learning and Adaptation: New Challenges of Support-Query Shift
Authors Etienne Bennequin, Victor Bouvier, Myriam Tami, Antoine Toubhans, C line Hudelot
很少有镜头学习FSL算法在学习新颖的概念中取得了实质性进展,只有少数标签的数据。要对在测试时间遇到的新颖类别中分类查询实例,它们只需要由少数标记的样本组成的支持集。 FSL基准通常假设这些查询来自与支持集中的实例相同的分发。然而,在逼真的集合中,数据分布是可被改变的可编派可能的影响,其情况被称为分配换档DS。目前的工作解决了在支持查询Shift FSQS中的几个拍摄学习的新的和挑战性问题,即,当支持和查询实例从相关但不同的发行版采样时。我们的贡献是以下内容。首先,我们释放用于FSQ的测试平台,包括数据集,相关基线和用于严格和可重复的评估的协议。其次,我们观察到建立的FSL算法在面对FSQ的情况下,强调了准确性的显着下降,强调了我们研究的重要性。最后,我们表明转换算法可以限制DS的Inopportune效果。特别是,我们研究批量归一化和最佳传输OT在对齐分布时的作用,桥接无监督域适应FSL。这导致一种新方法,可有效地将OT与庆祝的原型网络结合起来。我们带来了令人信服的实验,证明了我们方法的优势。我们的作品通过提供测试用和强的基线开设了令人兴奋的研究。我们的代码可供选择

Deep learning-based bias transfer for overcoming laboratory differences of microscopic images
Authors Ann Katrin Thebille, Esther Dietrich, Martin Klaus, Lukas Gernhold, Maximilian Lennartz, Christoph Kuppe, Rafael Kramann, Tobias B. Huber, Guido Sauter, Victor G. Puelles, Marina Zimmermann, Stefan Bonn
医学图像的自动分析目前受到技术和生物噪声和偏差的限制。如果图像获取或处理协议变化,则相同的源组织可以通过巨大不同的图像表示。对于图像分析管道,补偿这种偏差至关重要以避免误解。在这里,我们评估,比较和改进现有的生成模型架构,以克服免疫荧光IF和苏木精和eosin H E染色显微镜图像的域移位。为了确定生成模型的性能,由深神经网络分段或分类的原始和变换图像仅在目标偏差的图像上进行培训。在我们的分析范围内,U NET Cyclegans培训,具有额外的身份和MS SSIM基于SSIM的损失和培训的固定点GAN,其分别为IF和H E分别导致了最佳结果。调整样品的偏差显着改善了人肾肾小球和孔孔的像素水平分割,并通过最多14℃改善人前列腺活组织检查的分类精度。

Dense Regression Activation Maps For Lesion Segmentation in CT scans of COVID-19 patients
Authors Weiyi Xie, Colin Jacobs, Bram van Ginneken
胸腔CT上的自动病变分割能够快速定量分析Covid 19感染的肺部受累。获得用于训练分割网络的体素级注释是非常昂贵的。因此,我们提出了一种基于密集回归激活图DRAM的弱监管的分割方法。大多数先进的弱监管分割方法方法利用类激活映射凸轮,以通过粗略分辨率本地化从高电平语义特征生成的对象。结果,CAMS提供粗略轮廓,其不会与对象分段精确对齐。相反,我们从分段网络中利用密集的功能来计算密集的回归激活映射DRAM,以保留本地细节。在培训期间,池隙明智的DRAM才能归因于每个叶病变百分比。以这种方式,与分类方法相比,网络实现了关于病变量化的附加信息。此外,我们基于注意模块和密集的条件随机场与主要回归任务一起培训的致密条件随机场。精致的DRAM作为伪标签,用于培训最终分割网络。当在69CT扫描评估时,我们的方法基本上将基于凸轮的弱监管分割方法的0.335从0.335改善了0.495的联盟的交叉点。

FNAS: Uncertainty-Aware Fast Neural Architecture Search
Authors Jihao Liu, Ming Zhang, Yangting Sun, Boxiao Liu, Guanglu Song, Yu Liu, Hongsheng Li
加固学习基于RL的神经结构搜索NAS通常保证更好的收敛性虽然与基于梯度的方法相比,患有巨大的计算资源的要求,这是由于每个采样在代理任务上的每个采样生成的穷举训练。在本文中,我们提出了一般管道,以加速推出过程的收敛以及NAS中的R1过程。它是通过有趣的观察,即建筑和参数知识可以在不同的实验和甚至不同的任务之间传输。我们首先在近端政策优化PPO中引入不确定性意识的评论批评功能,以利用先前实验中的架构知识,这使得培训过程稳定并将搜索时间减少4次。此外,提出了一种与块相似性功能一起的架构知识池来利用参数知识并将搜索时间减少2次。它是第一个引入RLBASED NAS中的块级重量共享。块相似性功能保证了100个击中比率,严格的公平。此外,我们表明RL优化中的重放缓冲区中使用的简单设计的策略校正因子可以进一步减少搜索时间的一半。在移动神经架构搜索MNAS搜索空间的实验显示,所提出的快速神经结构搜索FNA通过10x通过10倍加速标准RL的NAS过程。 256 2x2 TPUV2 X天20,000 GPU X小时2,000 GPU X小时用于MNA,并保证各种视觉任务的更好性能。

ViBERTgrid: A Jointly Trained Multi-Modal 2D Document Representation for Key Information Extraction from Documents
Authors Weihong Lin, Qifang Gao, Lei Sun, Zhuoyao Zhong, Kai Hu, Qin Ren, Qiang Huo
基于基于网格的文档表示,如BertGrid允许同时编码文档的文档的文本和布局信息,使得所艺术图像分割和或对象检测模型的状态可以直接利用以从文档中提取密钥信息。然而,这种方法尚未对最先进的序列和基于曲线图的方法进行了相当的性能,例如Layoutlm和拾取。在本文中,我们通过将BertGrid连接到CNN模型的中间层来提出新的多模态骨干网络,其中CNN的输入是文档图像,BERTGRID是单词嵌入式的网格,以生成更强大的网格基于文档表示,名为vibertgrid。与BertGrid不同,我们的多模式骨干网中BERT和CNN的参数共同培训。我们的实验结果表明,这种联合培训策略可显着提高了vibertgrid的代表性能力。因此,基于VibertGrid基于的关键信息提取方法已经实现了现实世界数据集的最新性能。

Optimal ANN-SNN Conversion for Fast and Accurate Inference in Deep Spiking Neural Networks
Authors Jianhao Ding, Zhaofei Yu, Yonghong Tian, Tiejun Huang
作为生物启发的节能神经网络,尖峰神经网络SNNS吸引了研究人员和行业的伟大关注。培训深度SNN的最有效的方法是通过ANN SNN转换。然而,转换通常遭受精度损失和长期推理时间,这妨碍了SNN的实际应用。在本文中,我们理论上分析了Ann SNN转换并导出了最佳转化的充分条件。为了更好地关联ANN SNN并获得更高的准确性,我们提出了率规范层来更换源ANN培训中的Relu激活功能,从而从培训的ANN直接转换为SNN。此外,我们提出了最佳的拟合曲线,以量化源ANN的激活值与目标SNN的实际射击率之间的拟合。我们表明,通过优化修改后的ANN中的拟合曲线的上限来实现推理时间,以实现快速推断。我们的理论可以解释现有的快速推理工作,并获得更好的结果。实验结果表明,该方法达到了近损耗较少的转化率与VGG 16,PREACTRESNET 18和更深的结构。此外,它可以达到8.6倍的推理性能下的0.265倍的典型方法。代码可用

On Enhancing Ground Surface Detection from Sparse Lidar Point Cloud
Authors Bo Li
点云中的地面检测广泛用作自主驱动系统中的关键模块。与先前的方法不同,主要用于具有高光束分辨率的LiDARS,例如,该论文提出了适用于具有低光束分辨率的LiDARS捕获的稀疏点云的地面检测技术,例如,LiDARS。 Velodyne VLP 16.该方法基于平面拟合的Ransac方案。通过利用点明智的切线来增强对平面假设的Inlier验证,这是可用于计算LIDAR光束密度的本地特征。在我们的实现不相交的平面区域中,基面不完美平面拟合多个特定4。通过假设这些平面区域是矩形的并且利用积分图像技术,我们的方法大致地找到RANSAC方案下的最佳区域分区和平面假设,具有实时计算复杂度。

AdaGCN:Adaptive Boosting Algorithm for Graph Convolutional Networks on Imbalanced Node Classification
Authors S. Shi, Kai Qiao, Shuai Yang, L. Wang, J. Chen, Bin Yan
图形神经网络GNN在图数据表示中取得了显着的成功。然而,以前的工作仅考虑了理想的平衡数据集,并且很少考虑实际的不平衡数据集,这相反,这对GNN的应用具有更大的意义。传统方法,如处理不平衡数据集的重新采样,重重和合成样本,不再适用于GNN。与单估计器相比,集合模型可以更好地处理不平衡数据集。此外,与单个估计器相比,集合学习可以实现更高的估计精度并具有更好的可靠性。在本文中,我们提出了一个名为AdAGCN的集合模型,其在自适应升压期间使用图形卷积网络GCN作为基础估计。在Adagcn中,将为未正确分类的训练样本设置更高的重量,并且使用转移学习来降低计算成本并提高拟合能力。实验表明,我们提出的ADAGCN模型比GCN,GraphSage,GAT,N GCN和合成的非衡度数据集上的大多数先进重新重载和重新采样方法实现了更好的性能,平均提高了4.3。我们的模型还可以提高所有具有挑战性的节点分类任务的最新信息,我们考虑Cora,Citeeseer,Pubmed和Nell。

Experimenting with Knowledge Distillation techniques for performing Brain Tumor Segmentation
Authors Ashwin Nalwade, Jackie Kisa
多模态磁共振成像MRI是分析人脑的重要方法。它通常用于诊断疾病和对治疗的有价值的决定,检查人类大脑中的胶质瘤。具有不同程度的严重程度和检测,正确诊断Gliomas是现代医学中最令人生畏和最重要的分析任务之一。我们的主要重点是使用不同的方法来进行多式联运MRI扫描中脑肿瘤的细分。现在,用于培训的数据的数量一直被认为是开发出色的型号至关重要。因此,我们还想尝试知识蒸馏技术。

Chinese Abs From Machine Translation

Papers from arxiv.org

更多精彩请移步主页


在这里插入图片描述
pic from pexels.com

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值