【AI视野·今日CV 计算机视觉论文速览 第173期】Wed, 25 Dec 2019

90 篇文章 9 订阅
42 篇文章 8 订阅

AI视野·今日CS.CV 计算机视觉论文速览
Wed, 25 Dec 2019
Totally 26 papers
👉上期速览更多精彩请移步主页

在这里插入图片描述

Interesting:

📚*****基于深度拟合的深度补全方法, 针对基于图像和稀疏深度值的深度补全任务,本研究提出了一种结合深度学习和优化方法的手段来提升性能。通过将最后一层的1x1卷积替换为最小二乘模块,通过将隐含曲面与稀疏深度相匹配来计算权重。这种方法可以自然的延伸到多尺度的自监督训练中,大幅超过了基准模型的性能。(from 宾夕法尼亚大学)
在这里插入图片描述
多尺度深度重建模型:
在这里插入图片描述
在不同数据集上的结果:
在这里插入图片描述
code:
Sparse-Depth-Completion:https://github.com/wvangansbeke/Sparse-Depth-Completion
DFuseNet:https://github.com/ShreyasSkandanS/DFuseNet
TODO(rjj):ask code from:quchao@seas.upenn.edu

📚**基于rgb图像生成带纹理的稠密点云, 论文通过多阶段的训练实现了具有泛化性的网络模型,首先将输入图像转化为可视部分的坐标表示,而后与纹理一起生成点云被投影到了八个固定视角上,生成多视角的深度图和纹理图,经过网络补全后得到了完整的深度图、纹理图,并通过联合融合得到最终的具有纹理的点云输出结果。(from 马里兰大学)
在这里插入图片描述
code:https://github.com/TaoHuUMD/3D-Reconstruction

📚JSNet实例与语义分割联合模型, 模型包含主干特征抽取部分、用于语义或实例分割的解码器与融合器,最终生成结果。(from 华中科技大学)
在这里插入图片描述
模块的细节如下所示
在这里插入图片描述
code:https://github.com/dlinzhao/JSNet
Stanford Large-Scale 3D Indoor Spaces (S3DIS) (Armeni et al. 2016) and ShapeNet (Yi et al. 2016)

📚GS-Net几何共享网络用于电鱼分类和分割, 基于特征值空间中进行最邻近计算几何特征,在特征值空间中具有旋转不变性(from 深圳重点实验室 中国科学院深圳先进技术研究院)
在这里插入图片描述
基于特征值空间的特征值图结构的表示:
在这里插入图片描述
模型中的几何相似度和特征图模块:
在这里插入图片描述
code:https://github.com/MingyeXu/GS-Net.
http://www.siat.ac.cn/

📚PCC点云压缩进展与比较分析, (from 山东大学)
两种基于树结构的解构方法:
在这里插入图片描述
不同编码器架构:
在这里插入图片描述在这里插入图片描述
code:TMC1,TMC2,TMC3,TMC12等方法


something else TL;DR

动态点云关系特征建模
**综述:**深度学习方法用于自动驾驶的综述
在这里插入图片描述在这里插入图片描述
在这里插入图片描述在这里插入图片描述
综述:基于二维图像的语义分割综述,文章中有分割算法的一个综述表格~~
在这里插入图片描述在这里插入图片描述在这里插入图片描述
ICDAR 2019招牌中文识别挑战赛总结
点云攻击与协作提升准确率
在这里插入图片描述在这里插入图片描述

+++Dense RepPoints视觉目标代表性点
在这里插入图片描述在这里插入图片描述在这里插入图片描述在这里插入图片描述

FHDR从LDR转为HDR的新方法,基于反馈思想实现从低动态范围到高动态范围的图像重建。
在这里插入图片描述
在这里插入图片描述

Daily Computer Vision Papers

Audio-Visual Embodied Navigation
Authors Changan Chen, Unnat Jain, Carl Schissler, Sebastia Vicenc Amengual Gari, Ziad Al Halah, Vamsi Krishna Ithapu, Philip Robinson, Kristen Grauman
环游世界自然是一种多感官的体验,但是如今,具体体现出来的主体只限于对环境的视觉感知。我们为复杂,声学和视觉逼真的3D环境引入了视听导航。通过视听,座席必须学会导航到基于音频的目标。我们开发了一种多模式的深度强化学习管道,以从以自我为中心的视听观察流中端对端地训练导航策略,从而使代理能够1发现回声音频所指示的物理空间的几何元素,以及2检测并跟随声音发射目标。我们进一步介绍了基于几何声学模拟的音频渲染,用于一组公开可用的3D资产和仪器AI Habitat,以支持新传感器,从而可以在公寓,办公室和酒店环境中插入任意声源。我们的结果表明,音频极大地有益于3D空间中的可视化导航。

Dense RepPoints: Representing Visual Objects with Dense Point Sets
Authors Ze Yang, Yinghao Xu, Han Xue, Zheng Zhang, Raquel Urtasun, Liwei Wang, Stephen Lin, Han Hu
我们提出了一种称为textbf Dense RepPoints的对象表示形式,用于对对象外观和几何图形进行灵活而详细的建模。与边界框的粗略几何定位和特征提取相比,Dense RepPoints自适应地将密集的点集分布到对象在语义和几何上的重要位置,从而为对象分析提供了有益的线索。人们开发了一些技术来解决与监督训练有关的挑战,这些训练涉及对来自图像片段注释的密集点集进行处理,并使这种广泛的表示在计算上可行。另外,该表示的多功能性被用于在多个粒度级别上对对象结构进行建模。 Dense RepPoints显着提高了面向几何的视觉理解任务的性能,包括在具有挑战性的COCO基准测试中实现了1.6 AP的目标检测增益。

FHDR: HDR Image Reconstruction from a Single LDR Image using Feedback Network
Authors Zeeshan Khan, Mukul Khanna, Shanmuganathan Raman
由于深度学习的最新进展,使得从单曝光低动态范围LDR图像生成高动态范围HDR图像成为可能。已经提出了各种前馈卷积神经网络CNN用于学习从LDR到HDR表示。为了更好地利用CNN的功能,我们采用了反馈的思想,即最初的低层特征由递归神经网络的隐藏状态由高层特征指导。与常规前馈网络中的单个前馈不同,反馈网络中从LDR到HDR的重构是通过多次迭代学习的。这使我们能够创建从粗糙到精细的表示形式,从而在每次迭代时都改善了重构效果。与标准前馈网络相比,各种优点包括早期重建能力和较少网络参数的更好重建质量。我们设计了一个密集的反馈模块,并提出了从单次曝光LDR图像生成HDR图像的端到端反馈网络FHDR。定性和定量评估显示了我们的方法优于最新方法的优势。

Analyzing ImageNet with Spectral Relevance Analysis: Towards ImageNet un-Hans'ed
Authors Christopher J. Anders, Talmaj Marin , David Neumann, Wojciech Samek, Klaus Robert M ller, Sebastian Lapuschkin
当今,用于计算机视觉的机器学习模型通常在包含数百万个样本的超大型基准数据集上进行训练。但是,这些可能包含一些偏见,伪影或错误,这些偏见,伪影或错误并未引起注意并被模型利用。在最坏的情况下,训练后的模型可能会成为Clever Hans预测变量,该预测子不会学习有效且可推广的策略来解决其所训练的问题,而是将其决策基于训练数据中的虚假相关性。最近开发的技术可以解释各个模型的决策,从而对模型的预测策略有更深入的了解。在本文中,我们通过提供一个全面的分析框架来做出贡献,该框架基于对大数据语料库的解释方法(此处为ImageNet)的归因的可扩展统计分析。基于最新的频谱相关性分析SpRAy技术,我们提出了三项技术贡献,并得出了基于Wasserstein的新颖相似性度量标准,用于比较归因,以实现对归因的首次时间尺度,平移和旋转不变比较,以及对人为因素和中毒模型,其中正在研究的ML模型表现出聪明的汉斯行为,通过清理程序可以系统地释放伪像和偏差数据,从而显着减少聪明的汉斯行为,即,我们取消了汉斯ImageNet数据语料库。使用此新颖的方法集,我们对ImageNet中的偏差和伪像进行了定性和定量分析,并证明了使用这些洞察力可以带来改进的模型和功能更清洁的数据语料库。

Neural Shape Parsers for Constructive Solid Geometry
Authors Gopal Sharma, Rishabh Goyal, Difan Liu, Evangelos Kalogerakis, Subhransu Maji
构造实体几何CSG是一种几何建模技术,通过对诸如球体和圆柱体之类的图元递归应用布尔运算来定义复杂形状。我们介绍CSGNe,这是一种深度网络架构,采用2D或3D形状作为输入并输出对其建模的CSG程序。将形状解析为CSG程序是可取的,因为它可以生成紧凑且可解释的生成模型。但是,由于基本体及其组合的空间可能过大,因此该任务具有挑战性。 CSGNe使用基于深度网络的卷积编码器和递归解码器以前馈方式将形状映射到建模指令,并且比自下而上的方法要快得多。我们针对此任务研究了两种架构,即香草编码器CNN解码器RNN和另一种架构,该架构基于程序执行堆栈使用显式内存模块扩展了编码器。堆栈增强提高了生成形状的重建质量和学习效率。与现有技术的物体检测器相比,我们的方法作为形状图元检测器也更加有效。最后,我们证明可以通过策略梯度技术在没有程序注释的情况下在新颖的数据集上训练CSGNet。

Large Scale Learning of General Visual Representations for Transfer
Authors Alexander Kolesnikov, Lucas Beyer, Xiaohua Zhai, Joan Puigcerver, Jessica Yung, Sylvain Gelly, Neil Houlsby
训练深层神经网络进行视觉训练时,预先训练的表示形式的转移可以提高样本效率,并简化超参数调整。我们重新审视了大型监督数据集上的预训练范例,并微调了目标任务的权重。我们扩大了培训前的规模,并创建了一个简单的配方,称为Big Transfer BiT。通过组合一些精心选择的组件,并使用简单的试探法进行传输,我们在20多个数据集上实现了出色的性能。在从10到1M标记的示例的惊人数据范围内,BiT的性能都很好。 BiT在ILSVRC 2012上达到87.8最高1精度,在CIFAR 10上达到99.3,在可视任务适应基准中达到76.7,其中包括19个任务。在小型数据集上,BiT在ILSVRC 2012上达到86.4,每班25个示例,在CIFAR 10上达到97.6,每班10个示例。我们对导致高传输性能的主要组件进行详细分析。

Robust Visual Tracking via Implicit Low-Rank Constraints and Structural Color Histograms
Authors Yi Xuan Wang, Xiao Jun Wu, Xue Feng Zhu
凭借保证的空间外观模型的辨别力和效率,基于区分相关滤波器DCF的跟踪方法最近取得了出色的性能。但是,由于滤波器退化成为导致DCF框架中跟踪失败的重要因素,因此有效的时间外观模型的构建仍然具有挑战性。为了鼓励时间连续性并探索目标外观的平滑变化,我们建议增强学习滤波器的低秩结构,这可以通过将连续滤波器限制在ell 2范数球内来实现。此外,我们设计了一个全局描述符,即结构颜色直方图,为最终响应图提供补充支持,从而提高了DCF框架的稳定性和鲁棒性。在标准基准上的实验结果表明,我们的隐式低秩约束和结构颜色直方图ILRCSCH跟踪器的性能优于现有方法。

Adaptive Distraction Context Aware Tracking Based on Correlation Filter
Authors Fei Feng, Xiao Jun Wu, Tianyang Xu, Josef Kittler, Xue Feng Zhu
判别相关滤波器CF使用循环卷积运算为分类器的设计提供几个训练样本,从而可以将目标与背景区分开。跟踪过程中,靠近目标的对象可能会干扰过滤器的设计,从而导致跟踪失败。本文提出了一种自适应的分散注意力上下文感知跟踪算法来解决这个问题。在通过CF算法获得的前一帧的响应图中,我们自适应地找到与目标相似的图像块并将其用作负样本。这减少了跟踪过程中相似图像块对分类器的影响,并提高了其准确性。视频序列的跟踪结果表明,该算法可以应对遮挡和旋转等快速变化,并且可以自适应地将目标周围的干扰物体用作负样本,从而提高了目标跟踪的准确性。

Deep Manifold Embedding for Hyperspectral Image Classification
Authors Zhiqiang Gong, Weidong Hu, Xiaoyong Du, Ping Zhong, Panhe Hu
深度学习方法在高光谱图像分类中起着越来越重要的作用。但是,一般的深度学习方法主要利用样本本身的信息或样本之间的成对信息,而忽略整个数据中的固有数据结构。为了解决这个问题,这项工作开发了一种用于高光谱图像分类的新型深流形嵌入方法DMEM。首先,将图像中的每个类别建模为特定的非线性流形,并使用测地距离来测量样本之间的相关性。然后,基于分层聚类,可以捕获数据的流形结构,并且可以将每个非线性数据流形分为几个子类。最后,考虑到每个子类的分布以及不同子类之间的相关性,构造DMEM来保留估计的测地距离在学习到的不同样本的低维特征之间的数据流形上。在三个现实世界的高光谱图像数据集上的实验证明了该方法的有效性。

Multi-Graph Transformer for Free-Hand Sketch Recognition
Authors Peng Xu, Chaitanya K. Joshi, Xavier Bresson
鉴于信号稀疏和草图的高度抽象,学习徒手草图的有意义的表示仍然是一项艰巨的任务。现有技术的重点是利用卷积神经网络CNN来利用草图的静态性质或利用递归神经网络RNN来利用时间顺序属性。在这项工作中,我们提议草图的新表示形式是多个稀疏连接的图。我们设计了一种新颖的图形神经网络GNN(多图形变压器MGT),用于从多个图形中学习草图的表示,这些图形同时捕获全局和局部几何笔划结构以及时间信息。我们报告有关草图识别任务的大量数值实验,以证明所提出方法的性能。特别是,应用于Google QuickDraw的414k草图的MGT与基于CNN的性能上限72.80与74.22相比,实现了较小的识别差距,并且ii明显优于所有基于RNN的模型。据我们所知,这是提议将草图表示为图形并将GNN应用到草图识别的第一项工作。代码和训练有素的模型可在以下位置获得

Ordered or Orderless: A Revisit for Video based Person Re-Identification
Authors Le Zhang, Zenglin Shi, Joey Tianyi Zhou, Ming Ming Cheng, Yun Liu, Jia Wang Bian, Zeng Zeng, Chunhua Shen
为了学习基于视频的人员识别VPRe id的良好视觉表示,递归网络真的必要吗?在本文中,我们首先表明,采用递归神经网络RNN聚合时空特征的通用做法可能不是最佳的。具体而言,通过诊断分析,我们表明,递归结构可能无法有效地学习时间依赖性,而不是我们期望的结果,并且隐式地产生了无序表示。基于此观察结果,我们然后为VPRe id提供了一种简单而出奇的强大方法,其中我们将VPRe id视为基于图像的人员重新识别问题的有效无序集合。更具体地说,我们将视频划分为单个图像,然后重新组合基于图像的排名的人。在i.d.假设,我们提供了一个错误界限,阐明了如何改善VPRe id。我们的工作还提出了一种有前途的方法,可以弥补基于视频和图像的人员重新识别之间的差距。全面的实验评估表明,提出的解决方案在多个被广泛使用的数据集iLIDS VID,PRID 2011和MARS上达到了最先进的性能。

Computation Reallocation for Object Detection
Authors Feng Liang, Chen Lin, Ronghao Guo, Ming Sun, Wei Wu, Junjie Yan, Wanli Ouyang
骨干中计算资源的分配是对象检测中的关键问题。但是,通常将分类分配模式直接用于目标检测器,这被证明是次优的。为了以更有效的方式重新分配参与的计算资源,我们提出了CR NAS计算重新分配神经体系结构搜索,该搜索可以学习目标检测数据集上不同特征分辨率和空间位置的计算重新分配策略。提出了用于阶段和空间重新分配的两级重新分配空间。采用一种新颖的分层搜索程序来应对复杂的搜索空间。我们将CR NAS应用于多个骨干网并实现一致的改进。我们的CR ResNet50和CR MobileNetV2分别比基准性能高出1.9和1.7 COCO AP,而没有任何额外的计算预算。 CR NAS发现的模型可以用于其他功能强大的检测头,并可以轻松转移到其他数据集,例如PASCAL VOC和其他视觉任务,例如实例细分。我们的CR NAS可以用作插件来提高各种网络的性能,这是非常苛刻的。

BETANAS: BalancEd TrAining and selective drop for Neural Architecture Search
Authors Muyuan Fang, Qiang Wang, Zhao Zhong
在机器学习领域,自动神经体系结构搜索技术变得越来越重要。特别是,权重共享方法在搜索计算资源少的良好网络体系结构方面显示出了巨大的潜力。然而,现有的权重分配方法主要受搜索策略的限制,这些方法要么统一训练所有网络路径以收敛,这会导致分支之间的冲突,并浪费大量的潜在候选人,要么有选择地训练具有不同频率的分支,从而导致评估不公平。和路径之间的比较。为了解决这些问题,我们提出了一种新的神经结构搜索方法,该方法具有均衡的训练策略以确保公平的比较,并提供选择性的删除机制来减少候选路径之间的冲突。实验结果表明,在移动设置下,我们提出的方法在ImageNet上可以达到79.0的领先性能,在准确性和效率上均优于其他最新方法。

Adversarial AutoAugment
Authors Xinyu Zhang, Qiang Wang, Jian Zhang, Zhao Zhong
数据增强DA已被广泛用于改善训练深度神经网络的通用性。最近,人为设计的数据增强已被自动学习的增强策略逐渐取代。通过在精心设计的数据增强搜索空间中找到最佳策略,AutoAugment可以显着提高图像分类任务的验证准确性。但是,这种方法在大规模问题上在计算上不可行。在本文中,我们开发了一种对抗方法,以得出一种计算上可承受的解决方案,称为对抗自动增强,可以同时优化与目标相关的对象和增强策略搜索损失。增强策略网络试图通过生成对抗性增强策略来增加目标网络的训练损失,而目标网络可以从较难的示例中学习更强大的功能,以提高通用性。与先前的工作相反,我们在目标网络培训中重新使用计算以进行策略评估,而无需对目标网络进行再培训。与AutoAugment相比,这使ImageNet的计算成本降低了约12倍,时间开销缩短了11倍。我们在CIFAR 10 CIFAR 100,ImageNet上展示了我们的方法的实验结果,并展示了相对于现有技术的显着性能改进。在CIFAR 10上,我们实现了前1个测试误差为1.36,这是目前性能最佳的单个模型。在ImageNet上,我们在没有额外数据的情况下在ResNet 50上达到了顶级1精度79.40,在ResNet 50 D上达到了80.00。

A Comprehensive Analysis of Weakly-Supervised Semantic Segmentation in Different Image Domains
Authors Lyndon Chan, Mahdi S. Hosseini, Konstantinos N. Plataniotis
尽管仅使用缺少位置信息的图像标签进行了训练,但是最近提出的用于弱监督语义分割的方法在预测像素类方面取得了令人印象深刻的性能。由于图像注释更便宜且生成速度更快,因此在某些数据集中训练分割算法的弱监督更为可行。这些方法主要是在自然场景图像上开发的,尚不清楚是否可以将它们简单地转移到具有不同特征的其他领域(例如组织病理学和卫星图像),并且仍然表现良好。关于将弱监督方法应用于这些其他图像域的文献很少进行研究,但如何确定某些方法是否更适合某些数据集以及如何确定用于新数据集的最佳方法尚不清楚。本文评估了在自然场景,组织病理学和卫星图像数据集上最新的弱监督语义分割方法。我们还分析了每个数据集方法的兼容性,并提出了在未看到的图像数据集上应用弱监督语义分割的一些原则。

Cascading Convolutional Color Constancy
Authors Huanglin Yu, Ke Chen, Kaiqi Wang, Yanlin Qian, Zhaoxiang Zhang, Kui Jia
在计算颜色恒定性中,通常采用从对象外观的表示来回归场景的照明。然而,由于未知光源,材料的不同反射特性以及外部成像因素(例如不同的相机传感器)所导致的内在外观和标签模糊性,仍然存在挑战。在本文中,我们简单地介绍了一种通过级联卷积颜色常数C4的新算法,以提高回归学习的鲁棒性,并在一个独特的框架中跨不同相机和场景的数据集实现稳定的泛化能力。所提出的C4方法通过引入加权的乘累加损失函数,集合了每个级联阶段的一系列相关照明假设,该函数可以固有地捕获不同的照明模式,并明确地执行从粗到精细的网络优化。在公共Color Checker和NUS 8 Camera基准测试中的实验结果表明,与现有方法相比,该算法具有更高的性能,尤其是对于较困难的场景。

Geometry-aware Generation of Adversarial and Cooperative Point Clouds
Authors Yuxin Wen, Jiehong Lin, Ke Chen, Kui Jia
最近的研究表明,机器学习模型容易受到对抗性例子的攻击。在2D图像域中,这些示例是通过向自然图像中添加不可察觉的噪声而获得的。本文通过学习使某些类别的近似目标表面变形来研究点云的对抗生成。由于将2D流形嵌入3D欧几里得空间中,因此对象表面具有平滑性和公平性的一般属性。因此,我们认为,为了实现难以察觉的表面形状变形,对抗性点云应该具有与良性相似的相似度,并且具有与良性相似的平滑度,而在点云的某些距离度量下也应接近良性。 。为此,我们提出了一种新颖的损失函数来解决点云的不可感知的几何感知变形,并在对抗性目标中使用提出的损失来攻击点集分类器的代表性模型。实验表明,我们提出的方法比现有方法具有更强的攻击性,并且没有引入明显的离群值和表面不规则性。在这项工作中,我们还研究了一个相反的方向,该方向学会以相同的几何形状但协作的方式使对象表面的点云变形。就提高分类的置信度或准确性而言,机器学习模型更喜欢协作生成的点云。我们目前进行的实验验证了我们提出的目标成功地学习了协作形状变形。

Unsupervised Scene Adaptation with Memory Regularization in vivo
Authors Zhedong Zheng, Yi Yang
我们考虑了从标记的源数据和未标记的目标数据中学习的无监督场景适应问题。现有方法集中于缩小源域和目标域之间的域间间隙。然而,人们正在探索网络内部知识和固有的不确定性。在本文中,我们提出了一种正交方法,称为体内记忆正则化,以利用内部域知识并正则化模型训练。具体而言,我们将分段模型本身称为存储模块,并减小了两个分类器(即主分类器和辅助分类器)的差异,以减少预测不一致。在没有额外参数的情况下,所提出的方法是对大多数现有领域自适应方法的补充,并且通常可以提高现有方法的性能。尽管简单,但我们在两个语义分割数据集GTA5 Cityscapes和SYNTHIA Cityscapes上验证了内存正则化的有效性,分别比基准模型提高了11.1和11.3 mIoU。

Learning to Navigate Using Mid-Level Visual Priors
Authors Alexander Sax, Jeffrey O. Zhang, Bradley Emi, Amir Zamir, Silvio Savarese, Leonidas Guibas, Jitendra Malik
对世界有视觉先验有多少,例如世界是3D的事实有助于学习执行下游运动任务,例如在复杂的环境中导航在学习中不使用这种视觉先验的后果是什么?我们通过在强化学习框架内集成通用感知技能集(距离估计器,边缘检测器等)来研究这些问题,见图1。与原始图像相比,该技能集的中级视觉为政策提供了更多的处理状态。

Scalable Fine-grained Generated Image Classification Based on Deep Metric Learning
Authors Xinsheng Xuan, Bo Peng, Wei Wang, Jing Dong
最近,生成的图像可以达到非常高的质量,即使人眼也无法分辨真实图像。尽管目前在法医界已经有一些检测生成图像的方法,但是这些方法大多数都用于检测生成图像的一种类型。生成的新型图像层出不穷,现有的检测方法无法很好地应对。这些问题促使我们提出了一种基于深度度量学习的可扩展的多类别分类框架,旨在对生成的图像进行更好的分类。此外,我们增加了框架的可伸缩性,以应对不断涌现的新型生成图像,并通过微调使模型对新型生成数据获得更好的检测性能。

FisheyeMultiNet: Real-time Multi-task Learning Architecture for Surround-view Automated Parking System
Authors Pullarao Maddu, Wayne Doherty, Ganesh Sistu, Isabelle Leang, Michal Uricar, Sumanth Chennupati, Hazem Rashed, Jonathan Horgan, Ciaran Hughes, Senthil Yogamani
自动泊车是一种低速机动场景,其结构非常复杂且复杂,需要在车辆周围进行完整的360度近场感应。在本文中,我们将从基于摄像头的深度学习算法的角度讨论自动泊车系统的设计和实现。我们提供了一个工业系统的整体概述,涵盖了嵌入式系统,用例和深度学习架构。我们演示了一个称为FisheyeMultiNet的实时多任务深度学习网络,该网络可以检测在低功耗嵌入式系统上停车所需的所有必需对象。 FisheyeMultiNet在4台摄像机上以15 fps的速度运行,它具有三个任务,即对象检测,语义分割和污损检测。为了鼓励进一步的研究,我们通过WoodScape项目引用Yogamani2019woodscape发布了包含语义分割和边界框检测基础事实的5,000张图像的部分数据集。

Characterizing the Decision Boundary of Deep Neural Networks
Authors Hamid Karimi, Tyler Derr, Jiliang Tang
深度神经网络,尤其是深度神经分类器,已经成为许多现代应用程序的组成部分。尽管他们取得了实际的成功,但我们对它们如何工作仍然知之甚少,并且对这种理解的需求也在不断增长。在这方面,可以帮助我们加深对决策行为的了解的深度神经网络分类器的一个关键方面是研究其决策边界。但是,这取决于能否访问填充决策边界附近区域的样本。为此,我们提出了一种称为深度决策边界实例生成DeepDIG的新颖方法。 DeepDIG利用基于对抗性示例生成的方法作为在任何深度神经网络模型的决策边界附近生成样本的有效方式。然后,我们介绍了一组重要的原则特征,这些特征利用了决策边界附近的生成实例来提供对深度神经网络的多方面理解。我们已经在各种深度神经网络模型的多个代表性数据集上进行了广泛的实验,并对它们的决策边界进行了描述。

Atmospheric turbulence removal using convolutional neural network
Authors Jing Gao, N. Anantrasirichai, David Bull
本文介绍了一种新颖的基于深度学习的方法,用于减轻大气变形的影响。我们建立了端到端监督卷积神经网络CNN,以重建湍流破坏的视频序列。我们的框架是根据残差学习概念开发的,该残差学习概念是在学习和预测时空时空失真的基础上进行的。我们的实验表明,该方法可以同时消除模糊,消除波纹效应并增强视频序列的对比度。我们的模型已经过模拟和真实失真的训练和测试。真实失真的实验结果表明,在还原图像的质量方面,我们的方法要比现有方法高3.8倍,并且在使用GPU的情况下,它的速度比现有方法快23倍。

TRADI: Tracking deep neural network weight distributions
Authors Gianni Franchi, Andrei Bursuc, Emanuel Aldea, Severine Dubuisson, Isabelle Bloch
在训练过程中,深度神经网络DNN的权重从随机初始化到使损失函数最小化的接近最佳值进行了优化。通常仅保留砝码的最终状态以进行测试,而在下降过程中朝着最小值的方向累积的有关砝码空间几何形状的大量信息将被丢弃。在这项工作中,我们建议利用这些知识并利用它来计算DNN的权重分布。通过从这些分布中采样网络集合,可以将其进一步用于估计DNN的认知不确定性。为此,我们介绍了一种在优化过程中跟踪权重轨迹的方法,该方法不需要对体系结构或训练过程进行任何更改。我们根据标准分类和回归基准以及针对分类和语义细分的分布检测来评估我们的方法。与其他流行方法相比,我们在保持计算效率的同时获得了竞争性结果。

Robustness of Brain Tumor Segmentation
Authors Sabine M ller, Joachim Weickert, Norbert Graf
我们在脑肿瘤分割的背景下解决深层神经网络的泛化行为。尽管当前的拓扑显示出越来越复杂的结构,但总体基准性能确实可以忽略不计。在我们的实验中,我们证明训练有素的U Net表现出最佳的泛化行为,并且足以解决此分割问题。我们说明了为什么在实际情况下扩展此模型不仅没有意义,而且甚至有害。另外,我们建议进行两个简单的修改,这些修改不会改变拓扑,以进一步提高其泛化性能。

a simple and effective framework for pairwise deep metric learning
Authors Qi Qi, Yan Yan, Zixuan Wu, Xiaoyu Wang, Tianbao Yang
深度度量学习DML由于其在计算机视觉中的广泛应用,在深度学习中受到了很多关注。先前的研究集中在设计复杂的损失和困难的示例挖掘方法上,这些方法大多是启发式的,缺乏理论上的理解。在本文中,我们将DML转换为简单的成对二进制分类问题,该问题将一对示例分类为相似或不相似。它确定了此问题中最关键的问题,即数据对不平衡。为了解决这个问题,我们提出了一个简单有效的框架来对一批数据中的样本对进行采样以更新模型。该框架的关键是为一小批数据定义所有对的稳健损耗,这是由分布稳健优化确定的。构造对偶变量的不确定性决策集的灵活性使我们能够恢复现有技术中的复杂损失,并引入新颖的变量。对几个基准数据集的经验研究表明,我们简单有效的方法优于最新结果。

Chinese Abs From Machine Translation

Papers from arxiv.org

更多精彩请移步主页


在这里插入图片描述
pic from pexels.com

评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值