今日CS.CV 计算机视觉论文速览
Tue, 2 Jul 2019
Totally 63 papers
?上期速览✈更多精彩请移步主页
Interesting:
?*****更深入地理解PointNet,提出新的点云模块和更深更宽的网络架构, 研究人员提出了一种精度更高内存消耗更小的点云处理模块,使得深度网络可以在更宽更深的网络上处理点云。这三种模块包括了多尺度点云处理模块、可以用于混合邻域信息的内存高效的点云卷积操作、以及可以共享高低层级间信息的交叉连接模块。(from 伦敦大学学院)
几种不同的基本模块:
几种构建出的网络层结构,包标准的pointnet,并行的多尺度pointnet,以及允许信息流动的多支路交叉link层,还有提高内存利用率和更深的点云处理网络结构:
一些得到的结果和误差图:
project:https://github.com/erictuanle/GoingDeeperwPointNetworks
dataset:ShapeNet-Part,ScanNet, PartNet
ref:PointNet++, DGCNN, SpiderCNN,PointCNN
?场景文字放大, 提出了一种场景中文字的放大器,可以在不改变背景的情况下放大目标区域的问题。整个网络由四个子网络组成,分别是去除文字的编码器、抽取文字区域并输出文字及其掩膜、然后进行文字放大(1.2x,1.5x)、最后进行图像合成将放大的文字贴回原图中。(from 九州大学 日本)
第三阶段的利用坐标卷积来代替原来的卷积,避免文字模糊:
最后的结果:
?基于高斯过程的RGB-D相机实时空间热校正, RGB-D相机大都使用厂家的标定结果,但由于标定精度不高、使用消耗和热影响使得深度显示结果不稳定质量也不高。研究人员提出了一种方法来精度的标定深度,考虑空间和热影响。基于四维空间和热空间的高斯过程回归,并利用GPU来对深度图进行实时校正。(from JKU Department of Computational Perception,)
温度对深度相机性能造成的影响:
深度图明显变得更加连续和精确了:
code:https://github.com/cheind/rgbd-correction/blob/master/sensor_correction/gp_gpu.py
camera:https://orbbec3d.com/astra-mini/
?Pano Popups室内三维重建, 提出了一种从360度图像中重建深度、表面法向量和边缘的新方法,基于平面的注意力来实现。注意到平面的损失函数利用了场景中的平面边界和原始曲率来提高了精度和法向量的预测效果。(from 北卡 教堂山)
一个很对称的网络结构,输入和三个输出结果,复用多尺度特征:
在SUMO[27]数据集上预测的结果:
平面描述损失和权重,以及最后的损失函数:
dataset: Scene Understanding and Modeling (SUMO) dataset [27]
?用于三维刚体数据匹配的局域几何特征表达评测, (from 西工大)
各种特征表示方法:
六个实验数据集和加入的四种扰动:
最后的finding值得学习。directly replacing attribute description with occupancy labels can achieve comparative or even stronger discriminative power and more robustness to common perturbations, yet being more compact and efficient!
?+++XNect:单图像多人实时三维姿势检测, 这是一种三阶段的方法,首先获取局域的每个关键的位置、全局的全身关节以及最后通过帧间来推理时域相关性。(from 马普研究所 EPFL)
第一阶段利用SelecSLS Net 架构得到可见部分的2D和中介的3D姿势;第二阶段今年利用全连接并行的对每个人进行检测、包括遮挡的关节;第三阶段提供了时域稳定性,通过动力学骨架拟合来获取相对于相机的位置和关节角度。
第二阶段的输入:
上一步骤中三维位姿编码:
结果展示:
?CDTB彩色和深度结合的视觉追踪数据集, (from University of Ljubljana, Slovenia)
不同光照下运动下的室内室外数据:
采集设备:
ref:
http://alan.lukezicfri.uni-lj.si/
标定:http://www.vision.caltech.edu/bouguetj/calib_doc/
图像序列注释:https://github.com/votchallenge/aibu
Daily Computer Vision Papers
Going Deeper with Point Networks Authors Eric Tuan Le, Iasonas Kokkinos, Niloy J. Mitra 在这项工作中,我们引入了三个通用点云处理模块,它们提高了现有技术网络的精度和内存消耗,从而可以设计更深入,更准确的网络。新颖的处理块是多分辨率点云处理块,用于以存储器有效方式混合邻域信息的点集的卷积类型操作和在低分辨率和高分辨率处理分支上有效地共享信息的交联块。通过组合这些块,我们可以设计出更广泛,更深入的架构。我们广泛评估了多点分割基准ShapeNet Part,ScanNet,PartNet的建议架构,并通过将我们的通用模块与多个最新架构PointNet,DGCNN,SpiderCNN,PointCNN结合使用,报告了精度和内存消耗方面的系统改进。我们报告在最复杂的PartNet数据集上IoU增加3.4,同时将内存占用减少57。 |
ICDAR2019 Robust Reading Challenge on Multi-lingual Scene Text Detection and Recognition -- RRC-MLT-2019 Authors Nibal Nayef, Yash Patel, Michal Busta, Pinaki Nath Chowdhury, Dimosthenis Karatzas, Wafa Khlif, Jiri Matas, Umapada Pal, Jean Christophe Burie, Cheng lin Liu, Jean Marc Ogier 随着现代城市日益增长的国际化文化,对强大的多语言场景文本MLT检测和识别系统的需求从未如此巨大。为了系统地进行基准测试和推动现有技术发展,我们提出的竞赛建立在RRC MLT 2017之上,还有一个额外的端到端任务,一个真实图像数据集中的附加语言,一个大规模的多语言合成数据集协助培训,以及基线端到端识别方法。真实数据集包含20,000个包含10种语言文本的图像。挑战有4个任务,涵盖多语言场景文本的各个方面,文本检测,b裁剪词脚本分类,c联合文本检测和脚本分类以及端到端检测和识别。总的来说,竞赛收到了来自研究和工业界的60份意见书。本文介绍了提出的RRC MLT 2019挑战的数据集,任务和结果。 |
Estimating brain age based on a healthy population with deep learning and structural MRI Authors Xinyang Feng, Zachary C. Lipton, Jie Yang, Scott A. Small, Frank A. Provenzano 大量研究已经确定,从健康人群训练的统计模型得出的估计脑年龄构成了预测认知衰退和各种神经疾病的有价值的生物标志物。在这项工作中,我们策划了一个大规模的异质数据集N 10,158,来自多个公开可用来源的健康人群中结构性脑MRI的年龄范围1897,我们在其上训练用于脑年龄估计的深度学习模型。大规模数据集的可用性使得在成年寿命期间的年龄分布更均匀,以进行有效的年龄估计,而不偏向某些年龄组。我们证明了用平均绝对误差MAE和相关系数r评估的年龄估计准确度,在反映自定义人口MAE 4。06年,r 0.970和独立寿命评估数据集MAE 4.21的保持测试集中均优于先前报告的方法。年,先前的一项研究已经评估了0.960。我们进一步证明了估计年龄在认知功能的寿命老化分析中的效用。此外,我们进行了广泛的消融测试,并采用特征归因技术来分析哪些区域贡献了最具预测价值,展示了额叶的突出性以及寿命期间的模式转变。总之,我们实现了卓越的年龄估计性能,证实了深度学习的有效性以及训练的附加效用,数据的数量更多,分布更均匀,比以前的研究更均匀。我们通过多种途径证明了对我们大脑年龄预测的区域贡献,并确认了估计和按时间顺序的脑年龄与神经心理测量之间的差异之间的关联。 |
Pano Popups: Indoor 3D Reconstruction with a Plane-Aware Network Authors Marc Eder, Pierre Moulon, Li Guan 在这项工作中,我们提出了一种训练平面感知卷积神经网络的方法,用于密集深度和表面法线估计以及来自单个室内三维图像的平面边界。使用我们提出的损失函数,我们的网络优于现有的单视图,室内,全向深度估计方法,并为三维图像提供表面法线预测的初始基准。我们的改进是由于使用了一种新的平面意识损失,利用主曲率作为平面边界的指标。我们还表明,包括测地坐标图作为网络先验可以显着提高表面法线预测精度。最后,我们演示了如何将网络输出结合起来生成室内场景的高质量3D弹出模型。 |
An Efficient Solution for Breast Tumor Segmentation and Classification in Ultrasound Images Using Deep Adversarial Learning Authors Vivek Kumar Singh, Hatem A. Rashwan, Mohamed Abdel Nasser, Md. Mostafa Kamal Sarker, Farhan Akram, Nidhi Pandey, Santiago Romani, Domenec Puig 本文提出了一种有效的乳腺超声总线图像肿瘤分割和分类解决方案。我们建议在条件生成性对抗网络cGAN分割模型中添加一个充满紊乱的卷积层,以学习不同分辨率的BUS图像的肿瘤特征。为了自动平衡每个最高级编码特征的相对影响,我们还建议在网络中添加通道明智的加权块。此外,具有典型对抗性损失的SSIM和L1范数损失被用作训练模型的损失函数。我们的模型在Dice和IoU指标方面优于最先进的细分模型,分别达到93.76和88.82的最高分。在分类阶段,我们表明从预测的面具边界的形状中提取的很少的统计特征可以正确地区分良性和恶性肿瘤,准确度为85 |
+++移动端的生产对抗实现MobileGAN: Skin Lesion Segmentation Using a Lightweight Generative Adversarial Network Authors Md. Mostafa Kamal Sarker, Hatem A. Rashwan, Mohamed Abdel Nasser, Vivek Kumar Singh, Syeda Furruka Banu, Farhan Akram, Forhad U H Chowdhury, Kabir Ahmed Choudhury, Sylvie Chambon, Petia Radeva, Domenec Puig 皮肤镜检查中的皮肤病变分割由于其模糊和不规则边界而成为挑战。由于数以亿计的参数,大多数基于深度学习的分割方法都耗费时间和内存。因此,难以将它们应用于具有有限GPU和存储器资源的真实皮肤镜设备。在本文中,我们提出了一种轻量级和高效的Generative Adversarial Networks GAN模型,称为MobileGAN,用于皮肤病变分割。更确切地说,MobileGAN将1D非瓶颈因子分解网络与GAN模型中的位置和信道关注模块相结合。所提出的模型在ISBI 2017挑战的测试数据集和ISIC 2018挑战的验证数据集上进行评估。尽管所提出的网络仅具有235万个参数,但它仍然与现有技术相当。实验结果表明,我们的MobileGAN获得了相当的性能,准确度为97.61。 |
XNect: Real-time Multi-person 3D Human Pose Estimation with a Single RGB Camera Authors Dushyant Mehta, Oleksandr Sotnychenko, Franziska Mueller, Weipeng Xu, Mohamed Elgharib, Pascal Fua, Hans Peter Seidel, Helge Rhodin, Gerard Pons Moll, Christian Theobalt 我们使用单个RGB相机以超过30 fps的速度呈现实时多人3D动作捕捉方法。它在通用场景中运行,并且对于其他人和对象的困难遮挡是鲁棒的。我们的方法在后续阶段运作。第一阶段是卷积神经网络CNN,其估计2D和3D姿势特征以及所有个体的所有可见关节的身份分配。我们为这个名为SelecSLS Net的CNN提供了一种新架构,它使用新颖的选择性长距离和短距离跳过连接来改善信息流,从而在不影响准确性的情况下实现更快的网络速度。在第二阶段,完全连接的神经网络将可能部分地由于每个受试者的遮挡2D姿势和3D姿势特征变成每个人的完整3D姿势估计。第三阶段将空间时间骨架模型拟合应用于每个主体的预测2D和3D姿势,以进一步协调2D和3D姿势,并实施时间一致性。我们的方法返回每个主题的关节角度的完整骨架姿势。这是与先前工作的进一步关键区别,其既不提取全局身体位置也不提取多人场景的实时连贯骨架的关节角度结果。在给出512x320图像作为输入的同时,所提出的系统以超过30 fps的先前看不见的速度在消费者硬件上运行,同时实现最先进的精度,我们将在一系列具有挑战性的现实世界场景中展示。 |
Online Multiple Pedestrian Tracking using Deep Temporal Appearance Matching Association Authors Young Chul Yoon, Du Yong Kim, Kwangjin Yoon, Young min Song, Moongu Jeon 在线多行人跟踪中,构建可靠的成本矩阵以将观测值分配给轨道非常重要。通过使用相似性度量来构造成本矩阵的每个元素。以前的许多作品都提出了自己的相似度计算方法,包括几何模型,边界框坐标和外观模型。特别地,外观模型包含与几何模型相比具有更高维度的信息。由于最近基于深度学习的方法的成功,可以处理高维外观信息。在许多深度网络中,通常采用具有三重态丢失的暹罗网络作为外观特征提取器。由于暹罗网络可以独立地提取每个输入的特征,因此可以自适应地建模轨迹,例如线性更新。但是,它不适合需要与其他输入进行比较的多对象设置。在本文中,我们提出了一种基于联合推理网络的新型轨道外观建模来解决这个问题。所提出的方法使得能够比较两个输入以用于自适应外观建模。它有助于消除目标观察匹配的歧义并巩固身份一致性。强化实验结果支持我们方法的有效性。 |
++基于声呐的目标检测Learning Objectness from Sonar Images for Class-Independent Object Detection Authors Matias Valdenegro Toro 在没有类信息的情况下检测新物体并非易事,因为很难从小型训练集中推广出来。对于水下机器人而言,这是一个有趣的问题,因为在声纳图像中对海洋物体进行建模本身就更加困难,并且训练数据可能无法获得。检测提议算法可用于此目的,但通常需要大量输出边界框。在本文中,我们提出使用完全卷积神经网络,该网络直接从前视声纳图像中回归对象值。通过对对象进行排名,我们可以产生高召回率96,每个图像只有100个提案。相比之下,EdgeBoxes需要5000个提案才能更好地召回97个,而选择性搜索需要2000个提案来实现95个召回。我们还表明,我们的方法在很大程度上优于模板匹配基线,并且能够推广到全新的对象。我们希望这种技术可以在现场用于寻找海底丢失的物体。 |
Automated Image Registration Quality Assessment Utilizing Deep-learning based Ventricle Extraction in Clinical Data Authors Florian Dubost, Marleen de Bruijne, Marco Nardin, Adrian V. Dalca, Kathleen L. Donahue, Anne Katrin Giese, Mark R. Etherton, Ona Wu, Marius de Groot, Wiro Niessen, Meike Vernooij, Natalia S. Rost, Markus D. Schirmer 注册是许多成像管道的核心组成部分。在临床扫描的情况下,具有较低的分辨率和有时大量的运动伪影,登记会产生较差的结果。在大型临床数据集中对注册质量的视觉评估是低效的。在这项工作中,我们建议在临床FLAIR MRI脑部扫描中自动评估注册质量。该方法包括使用神经网络自动分割给定扫描的心室,并将分割与传播到图像空间的寰椎心室进行比较。我们使用所提出的方法通过计算多个配准然后选择产生最高心室重叠的配准来改进临床图像配准到一般地图集。在超过1000次扫描的单个站点数据集中评估方法,以及包含来自12个站点的142次临床扫描的多中心数据集。自动心室分割达到Dice系数,单个站点数据集中的手动注释为0.89,多中心数据集中的手动注释为0.83。与直接登记到一般地图集相比,通过年龄特定的地图集登记可以改善心室重叠。骰子相似系数增加到0.15。实验还表明,使用配准质量评估方法选择扫描可以提高白质高强度负荷平均图的质量,而不是使用所有扫描来计算白质高强度图。在这项工作中,我们展示了自动化工具在临床扫描中评估图像配准质量的效用。该图像质量评估步骤最终可以帮助将自动神经成像管道转换到诊所。 |
Scene Text Magnifier Authors Toshiki Nakamura, Anna Zhu, Seiichi Uchida 场景文本放大镜旨在放大自然场景图像中的文本而无需识别。它可以帮助有近视或阅读障碍的特殊群体更好地了解现场。在本文中,我们通过交互式四个基于CNN的网络字符擦除,字符提取,字符放大和图像合成来设计场景文本放大镜。基于沙漏编码器解码器扩展网络的体系结构。它输入原始场景文本图像并输出文本放大图像,同时保持背景不变。中间,我们可以获得文本擦除和文本提取的侧输出结果。四个子网络首先被独立训练并在端到端模式中进行微调。每个阶段的训练样本通过ICDAR2013中的原始图像和文本注释以及Flickr数据集作为输入,以及相应的文本擦除图像,放大文本注释和文本放大场景图像作为输出来处理。为了评估文本放大器的性能,结构相似度用于测量每个字符区域的区域变化。实验结果表明,我们的方法可以有效地放大场景文本而不影响背景。 |
The Resale Price Prediction of Secondhand Jewelry Items Using a Multi-modal Deep Model with Iterative Co-Attention Authors Yusuke Yamaura, Nobuya Kanemaki, Yukihiro Tsuboshita 二手珠宝物品的转售价格评估在很大程度上依赖于领域专家的个人知识和技能。在本文中,我们提出了一种重建人工智能系统的方法,该系统可以自主评估二手珠宝物品的转售价格,而无需专业知识。如最近关于时尚物品的研究所示,结合物品的规格和视觉信息的多模式方法已成功获得时尚物品的细粒度表示,尽管它们通常通过多模式融合应用简单的矢量操作。我们类似地使用产品的图像和属性构建多模型模型,并且进一步采用应用于计算机视觉的现有技术多模式深度神经网络以实现实际性能水平。此外,我们使用迭代共同关注网络对专家的定价程序进行建模,其中仔细和迭代地观察产品的外观和属性。在这里,我们使用从合作时装零售商处收到的二手无品牌珠宝物品的大型数据集来证明我们的模型的有效性,并且表明迭代共同关注过程在转售价格预测的背景下有效地运作。我们的模型架构广泛适用于其他外观和规格是重要方面的时尚产品。 |
Self-supervised Hyperspectral Image Restoration using Separable Image Prior Authors Ryuji Imamura, Tatsuki Itasaka, Masahiro Okuda 使用卷积神经网络的监督学习被认为是图像恢复的有力手段。然而,大多数这样的方法已被设计用于灰度和/或彩色图像,因此,当应用于高光谱图像恢复时,它们的成功有限。这部分是由于难以收集大数据集,以及与具有许多光谱带的图像的恢复相关的大量计算负荷。为了解决这一困难,我们提出了一种新的自我监督学习策略,用于高光谱图像恢复。我们的方法从单个降级图像自动创建训练数据集,并训练一个没有任何清晰图像的去噪网络。我们方法的另一个值得注意的特征是使用可分离的卷积层。我们进行实验以证明使用可分离网络可以使我们获得高光谱图像的先验并实现有效的恢复。我们通过大量实验证明了我们方法的有效性,并表明我们的方法比目前被认为是现有技术的方法具有更好的特性。 |
Permutohedral Attention Module for Efficient Non-Local Neural Networks Authors Samuel Joutard, Reuben Dorent, Amanda Isaac, Sebastien Ourselin, Tom Vercauteren, Marc Modat 诸如分割之类的医学图像处理任务通常需要捕获非本地信息。由于器官,骨骼和组织具有共同的特征,例如强度,形状和纹理,因此上下文信息在正确标记它们中起着关键作用。现在通常使用卷积神经网络CNN来完成分段和标记,但是CNN的上下文受到接收场的限制,该接收场本身受到存储器要求和其他属性的限制。在本文中,我们提出了一个新的注意模块,我们称之为Permutohedral Attention Module PAM,以有效地捕获图像的非局部特征。所提出的方法既有记忆又有计算效率。我们提供此模块的GPU实现,适用于3D医疗成像问题。我们展示了模块的效率和可扩展性以及椎骨分割和标记的挑战性任务,其中上下文起着至关重要的作用,因为不同椎骨的外观非常相似。 |
CDTB: A Color and Depth Visual Object Tracking Dataset and Benchmark Authors Alan Luke i , Ugur Kart, Jani K pyl , Ahmed Durmush, Joni Kristian K m r inen, Ji Matas, Matej Kristan 提出了长期视觉对象跟踪性能评估方法和基准。通过遵循长期跟踪定义来设计性能测量,以最大化分析探测强度。新措施在解释潜力方面优于现有措施,并更好地区分不同的追踪行为。我们表明这些措施概括了短期绩效指标,从而将两个跟踪问题联系起来。此外,新测量对于时间注释稀疏性非常稳健,并且允许对序列的注释比当前数据集中的数百倍长,而不增加手动注释劳动。提出了一个具有许多目标消失的精心挑选序列的新挑战数据集。提出了一种新的跟踪分类法,用于在短期长期频谱上定位跟踪器。该基准包含对最大数量的长期攻击者的广泛评估,并与最先进的短期跟踪器进行比较。我们分析了跟踪架构实现对长期性能的影响,并探讨了各种重新检测策略以及视觉模型更新策略对长期跟踪漂移的影响。该方法被集成到VOT工具包中,以自动化实验分析和基准测试,并促进长期跟踪器的未来发展。 |
One Network for Multi-Domains: Domain Adaptive Hashing with Intersectant Generative Adversarial Network Authors Tao He, Yuan Fang Li, Lianli Gao, Dongxiang Zhang, Jingkuan Song 随着近来数字数据的爆炸式增长,图像识别和检索成为一种关键的实际应用。由于存储要求低,查询速度快,散列是解决此问题的有效方法。但是,过去的大部分工作都集中在单个源域中的散列。因此,学习的散列函数可能不能很好地适应与源域具有大的分布差异的新目标域。在本文中,我们探索了一种端到端域自适应学习框架,它同时精确地生成判别式哈希码并对目标域图像进行分类。我们的方法将两个域图像编码成一个语义公共空间,然后是两个独立的生成对抗网络,在交叉重建两个域图像时,减少域差异并改善共享空间中的对齐。我们在四个公共基准数据集上评估我们的框架,所有这些都表明我们的方法在对象识别和图像检索任务方面优于其他最先进的方法。 |
+++Learning to Approximate Directional Fields Defined over 2D Planes Authors Maria Taktasheva, Albert Matveev, Alexey Artemov, Evgeny Burnaev 方向场的重建是许多几何处理任务的需要,例如图像追踪,3D几何特征的提取和寻找主表面方向。从数据构造方向字段的常用方法依赖于复杂的优化过程,这些过程通常很难形成,需要相当大的计算量,并且不能跨应用程序进行传输。在这项工作中,我们提出了一种基于深度学习的方法,并研究表达能力和泛化能力。 |
Spatio-thermal depth correction of RGB-D sensors based on Gaussian Processes in real-time Authors Christoph Heindl, Thomas P nitz, Gernot St bl, Andreas Pichler, Josef Scharinger 商品RGB D传感器实时捕获彩色图像以及密集像素明智的深度信息。典型的RGB D传感器具有工厂校准,并且由于粗略的校准值,老化和热影响效应而显示出不稳定的深度读数。这限制了它们在计算机视觉和机器人技术中的适用性。我们提出了一种新的方法来联合考虑空间和热影响来精确校准深度。我们的工作基于四维笛卡尔和热域中的高斯过程回归。我们建议利用现代GPU实时进行密集深度图校正。为了重现性,我们公开了数据集和源代码。 |
Large Area 3D Human Pose Detection Via Stereo Reconstruction in Panoramic Cameras Authors Christoph Heindl, Thomas P nitz, Andreas Pichler, Josef Scharinger 我们提出了一种使用两个全景相机的新型3D人体姿势探测器我们表明,将鱼眼视角转换为直线视图允许直接应用二维深度学习姿势估计方法,而不需要昂贵的重新训练步骤来补偿鱼眼图像失真。通过利用全景相机,我们的方法能够在大视场上准确地估计人体姿势。这使我们的方法适用于人体工程学分析和其他基于姿势的评估。 |
Cross-view Relation Networks for Mammogram Mass Detection Authors Jiechao Ma, Sen Liang, Xiang Li, Hongwei Li, Bjoern H Menze, Rongguo Zhang, Wei Shi Zheng 乳房X线照片是早期乳腺癌肿块病变检测的最有效的成像方式。来自两个配对视图的信息,即中间侧倾和尾颅尾部是高度相关和互补的,这对于医生在临床实践中的决定是至关重要的。然而,现有的质量检测方法不考虑联合学习来自两个关系视图的有效特征。为了解决这个问题,本文提出了一种新的乳房X线照片质量检测框架,称为基于交叉视图关系区域的卷积神经网络CVR RCNN。拟议的CVR RCNN预期捕获来自两个配对视图的相应质量感兴趣区域ROI之间的潜在关系信息。对新的大规模私人数据集和公共乳房X线照片数据集的评估表明,所提出的CVR RCNN优于现有技术的质量检测方法。同时,我们的实验结果表明,将关系信息整合到两个视图中有助于训练一个优秀的检测模型,这是乳房X线照片质量检测的一个有前景的途径。 |
Learning to Blindly Assess Image Quality in the Laboratory and Wild Authors Weixia Zhang, Kede Ma, Xiaokang Yang 用于盲图像质量评估的先前模型由于难以将具有不同感知尺度的多个数据库组合,因此BIQA只能在一个主题评级数据库上进行训练或微调。因此,在具有合成失真的良好控制的实验室环境中训练的模型不能推广到实际的扭曲,其数据分布是不同的。类似地,针对在野外捕获的图像优化的模型不考虑在实验室中模拟的图像。在这里,我们描述了一种在多个数据库上同时训练BIQA模型的简单技术,无需对比例重新排列进行额外的主观测试。具体来说,我们首先在各个数据库中创建和组合图像对,其地面实况二进制标签是根据相应的平均意见得分计算出来的,表明两个图像中哪一个具有更高的质量。然后,我们通过学习对大量此类图像对进行排序来训练BIQA的深度神经网络。对六个数据库进行的大量实验表明,基于所提出的学习技术的BIQA方法适用于合成和现实的扭曲,优于现有的BIQA模型和一组模型参数。通过组最大分化gMAD竞争进一步验证了我们方法的普遍性。 |
ICDAR 2019 Competition on Scene Text Visual Question Answering Authors Ali Furkan Biten, Rub n Tito, Andres Mafla, Lluis Gomez, Mar al Rusi ol, Minesh Mathew, C.V. Jawahar, Ernest Valveny, Dimosthenis Karatzas 本文介绍了ICDAR 2019场景文本视觉问题答疑竞赛ST VQA的最终结果。 ST VQA引入了迄今为止任何视觉问答系统都无法解决的重要方面,即结合场景文本来回答有关图像的问题。该竞赛引入了一个新的数据集,包括23,038个带有31,791个问题答案对的图像,其中答案始终基于图像中存在的文本实例。这些图像来自7种不同的公共计算机视觉数据集,涵盖了广泛的场景。 |
Predicting video saliency using crowdsourced mouse-tracking data Authors Vitaliy Lyudvichenko, Dmitriy Vatolin 本文介绍了一种获取高质量视频显着图的新方法,使用更便宜的眼动追踪数据替代方案。我们设计了一个鼠标偶然视频观看系统,它根据鼠标光标的位置模拟观众周边视觉。该系统使得能够使用从普通计算机鼠标记录的鼠标跟踪数据作为由更昂贵的眼动仪记录的真实凝视注视的替代。我们开发了众包系统,可以大规模收集此类鼠标跟踪数据。使用收集的鼠标跟踪数据,我们发现它可以作为眼动追踪数据的近似值。此外,为了提高收集的鼠标跟踪数据的效率,我们提出了一种新的深度神经网络算法,该算法提高了鼠标跟踪显着性图的质量。 |
INN: Inflated Neural Networks for IPMN Diagnosis Authors Rodney LaLonde, Irene Tanner, Katerina Nikiforaki, Georgios Z. Papadakis, Pujan Kandel, Candice W. Bolan, Michael B. Wallace, Ulas Bagci 导管内乳头状粘液性肿瘤IPMN是胰腺导管腺癌的前体。虽然超过一半的患者在远处被诊断为胰腺癌,但早期诊断的患者的5年生存率高达34,而前者为3,因此早期诊断至关重要。医学成像领域的独特挑战,例如极其有限的注释数据集和典型的大型3D体积数据,使得深度学习难以确保稳固的立足点。在这项工作中,我们构建了两个新的膨胀深度网络架构,textit InceptINN和textit DenseINN,用于从多序列T1和T2 MRI诊断IPMN的任务。这些网络将他们的2D图层膨胀为3D,并且他们的2D对应物Inceptionv3和DenseNet121分别在ImageNet上训练到新的3D内核。我们还通过进一步扩展预先训练的内核来处理任何数量的输入模态和不同的融合策略来扩展通胀过程。这是首次在IPM诊断的多序列MRI上训练端到端深度网络的研究之一,并表明我们提出的新型充气网络架构能够处理极其有限的训练数据139 MRI扫描,同时提供绝对改进8.76在现有技术水平上诊断IPMN的准确性。代码公开于 |
Adversarially Trained Deep Neural Semantic Hashing Scheme for Subjective Search in Fashion Inventory Authors Saket Singh, Debdoot Sheet, Mithun Dasgupta 从库中的一个检索查询图像的最接近匹配的简单方法,使用像素或特征空间中的绝对差之和来比较图像对。该过程在计算上是昂贵的,不利于照明,背景构成,姿势变化,以及在具有超过1000个元素的图库集上部署效率低。散列是一种更快的替代方案,它涉及在缩小的维度简单特征空间中表示图像。将图像编码成二进制哈希码使得能够使用汉明距离度量在图像对中进行相似性比较。然而,挑战在于使用语义散列方案对图像进行编码,该方案允许主观邻居位于可容忍的汉明半径内。这项工作提出了一种解决方案,采用深层神经语义哈希网络的对抗性学习来进行时尚库存检索。它包括一个特征提取卷积神经网络CNN学习到我最小化服装分类类型的错误,ii最小化语义邻居之间的汉明距离和最大化语义不相似图像之间的距离,iii最大限度地加扰鉴别器识别相应的哈希码图像的能力在处理语义相似的查询库图像对时配对。时间库存搜索的实验验证在找到最接近的匹配时产生90.65的平均精度mAP,而通过用于汉明空间检索的深度Cauchy散列的现有技术获得53.26。 |
Difficulty-aware Meta-Learning for Rare Disease Diagnosis Authors Xiaomeng Li, Lequan Yu, Chi Wing Fu, Pheng Ann Heng 与具有大量可用标记数据的常见疾病不同,罕见疾病具有极低的数据方案。因此,训练神经网络用少数几类数据样本对罕见疾病进行分类是非常具有挑战性的,到目前为止,很少引起人们的注意。在本文中,我们提出了一种难以识别的元学习方法来解决罕见的疾病分类,并展示其对皮肤镜图像进行分类的能力。我们的关键方法是首先从常见疾病数据中培养和构建元学习模型,然后调整模型以执行罕见疾病 |
Random Vector Functional Link Neural Network based Ensemble Deep Learning Authors Rakesh Katuwal, P.N. Suganthan, M. Tanveer 在本文中,我们提出了一个基于随机神经网络的深度学习框架。特别是,受随机矢量功能链路RVFL网络原理的启发,我们提出了具有堆叠层的深度RVFL网络dRVFL。 dRVFL的隐藏层的参数在合适的范围内随机生成并保持固定,而输出权重使用封闭形式的解决方案计算,如在标准RVFL网络中那样。我们还提出了一个集合深度网络edRVFL,可以被视为集成学习与深度学习的结合。与需要独立训练多个模型的传统集成方法不同,edRVFL是通过一次训练单个dRVFL网络获得的。 dRVFL和edRVFL框架都是通用的,可以与任何RVFL变体一起使用。为了说明这一点,我们将深度学习网络与最近提出的稀疏预训练RVFL SP RVFL集成在一起。来自不同领域的基准数据集的广泛实验表明我们提出的深度RVFL网络的卓越性能。 |
Learning to Find Correlated Features by Maximizing Information Flow in Convolutional Neural Networks Authors Wei Shen, Fei Li, Rujie Liu 用于图像分类任务的训练卷积神经网络通常导致信息丢失。虽然大多数时候信息丢失对于目标任务来说是多余的,但仍然存在区分信息也被丢弃的情况。例如,如果属于同一类别的样本具有多个相关特征,则该模型可能仅学习特征的子集而忽略其余特征。除非测试集中的分类高度依赖于忽略的特征,否则这可能不是问题。我们认为,相关判别信息的丢弃部分是由于分类损失的最小化不能确保学习整体判别信息而只是最有辨别力的信息。为了解决这个问题,我们提出信息流最大化IFM损失作为正则化项来找到判别相关特征。由于信息丢失较少,分类器可以基于更多信息特征进行预测。我们在移位的MNIST数据集上验证我们的方法,并显示IFM损失在学习代表性和判别性特征方面的有效性。 |
Large-scale, real-time visual-inertial localization revisited Authors Simon Lynen, Bernhard Zeisl, Dror Aiger, Michael Bosse, Joel Hesch, Marc Pollefeys, Roland Siegwart, Torsten Sattler 基于图像的本地化的总体目标是规模,稳健性和速度。近年来,基于局部特征和稀疏3D点云模型的方法都在基准测试中占主导地位,并且看到了成功的真实世界部署。它们的应用范围从机器人导航,自动驾驶,虚拟和增强现实到设备地理定位。最近已经提出了端到端学习的定位方法,其在小规模数据集上显示出有希望的结果。然而,这些方法的定位准确性,可扩展性,延迟和计算存储要求仍然是开放式挑战。我们的目标是在全球范围内部署本地化,因此人们依赖于使用局部特征和稀疏3D模型的方法。我们的方法涵盖从离线模型构建到实时客户端姿势融合。该系统压缩场景的外观和几何形状,以实现高效的模型存储和查找,从而实现超出之前演示的可扩展性。它通过将服务器端定位与基于实时视觉惯性的相机姿态跟踪相结合,允许在移动平台上实现低延迟定位查询和高效融合。为了进一步提高效率,我们利用先验,最近邻搜索,几何匹配剔除和级联姿势候选细化步骤的组合。在使用大型模型时,这种组合优于以前的方法,并允许以前所未有的规模进行部署。我们证明了我们的方法在概念验证系统上的有效性,该系统针对来自世界不同地区的四个城市的模型定位了250万个图像,实现了200ms范围内的查询延迟。 |
Visual Space Optimization for Zero-shot Learning Authors Xinsheng Wang, Shanmin Pang, Jihua Zhu, Zhongyu Li, Zhiqiang Tian, Yaochen Li 零射击学习旨在识别未包括在训练集中的新类别,由于其在真实单词应用中的潜在能力而受到欢迎。零镜头学习模型依赖于学习嵌入空间,其中可以嵌入类的语义描述和实例的视觉特征以用于最近邻搜索。最近,大多数现有作品都将深度视觉特征所构成的视觉空间视为嵌入空间的理想选择。但是,视觉空间中实例的离散分布使得数据结构不起眼。我们认为优化视觉空间至关重要,因为它允许语义向量更有效地嵌入视觉空间。在这项工作中,我们提出了两个实现这一目标的策略。一种是基于视觉原型的方法,它为每个视觉类学习视觉原型,因此,在视觉空间中,类可以由原型特征代替一系列离散的视觉特征来表示。另一种是在中间嵌入空间中优化视觉特征结构,并且在该方法中我们成功地设计了基于多层感知器框架的算法,该算法能够学习共同的中间嵌入空间,同时使视觉数据结构更加独特。通过对四个基准数据集的广泛实验评估,我们证明优化视觉空间有利于零射击学习。此外,所提出的基于原型的方法实现了新的最新技术性能。 |
Multiple Landmark Detection using Multi-Agent Reinforcement Learning Authors Athanasios Vlontzos, Amir Alansary, Konstantinos Kamnitsas, Daniel Rueckert, Bernhard Kainz 解剖标志的检测是医学图像分析和诊断,解释和指导应用的关键步骤。手工注释地标是一个繁琐的过程,需要特定领域的专业知识,并引入观察者间的可变性。本文提出了一种基于多智能体强化学习的多地标检测方法。我们的假设是所有解剖标志的位置在人体解剖学中是相互依赖和非随机的,因此找到一个标志可以帮助推断出其他人的位置。使用Deep Q网络DQN架构,我们构建了一个具有隐式内部通信的环境和代理,这样我们就可以容纳K个代理同时执行和学习,同时他们尝试检测K个不同的地标。在培训期间,代理商通过分享他们积累的知识进行协作以获得集体收益。我们将我们的方法与最先进的架构进行比较,并通过将检测误差减少50来实现更高的准确性,同时与分别训练K代理的天真方法相比,需要更少的计算资源和训练时间。 |
Generative Mask Pyramid Network forCT/CBCT Metal Artifact Reduction with Joint Projection-Sinogram Correction Authors Haofu Liao, Wei An Lin, Zhimin Huo, Levon Vogelsang, William J. Sehnert, S. Kevin Zhou, Jiebo Luo 计算机断层摄影CT或锥形束CT CBCT金属伪影减少的传统方法是用合成数据替换金属迹线内的X射线投影数据。然而,现有的投影或正弦图完成方法不能总是产生解剖学上一致的信息来填充金属迹线,因此,当金属植入物很大时,通常会引入显着的二次伪影。在这项工作中,我们建议通过联合投影正弦图校正以及对抗性学习来替换具有解剖学上一致内容的金属伪影影响区域。为了处理各种形状和大尺寸的金属植入物,我们还提出了一种新颖的掩模金字塔网络,该网络在网络编码层上强制执行掩模信息,并减少掩模融合损失,从而减少对抗训练的早期饱和度。我们的实验结果表明,所提出的投影正弦图校正设计是有效的,并且我们的方法比现有技术方法更好地从金属迹线中恢复信息。 |
SLAM Endoscopy enhanced by adversarial depth prediction Authors Richard J. Chen, Taylor L. Bobrow, Thomas Athey, Faisal Mahmood, Nicholas J. Durr 由于图像特征的稀疏性和防止直接深度感测的尺寸限制,医学内窥镜仍然是同时定位和映射SLAM的具有挑战性的应用。我们提出了一种SLAM方法,该方法结合了由对侧训练的卷积神经网络CNN应用于单眼内窥镜图像的深度预测。深度网络使用简单结肠模型的合成图像进行训练,然后使用从人体冒号的计算机断层扫描测量结果呈现的域随机化照片级真实图像进行微调。每个图像都配有一个无差错深度图,用于监督对抗性学习。然后将单目RGB图像与相应的深度预测融合,从而在内窥镜通过胃肠道前进时实现密集重建和镶嵌。我们的初步结果表明,将单眼深度估计结合到SLAM架构中可以实现内窥镜场景的密集重建。 |
Improving 3D U-Net for Brain Tumor Segmentation by Utilizing Lesion Prior Authors Po Yu Kao, Jefferson W. Chen, B.S. Manjunath 我们提出了一种新颖,简单而有效的方法来整合病变先前和3D U Net以改善脑肿瘤分割。首先,我们利用来自一组患者的地面真相脑肿瘤病变来生成不同类型病变的热图。这些热图用于创建感兴趣的体积VOI图,其包含关于脑肿瘤病变的先前信息。然后将VOI图与多模MR图像集成并输入到3D U Net以进行分割。该方法在公共基准数据集上进行了评估,实验结果表明,所提出的特征融合方法比基线方法有所改进。此外,与现有技术方法相比,我们提出的方法也实现了竞争性能。 |
Stereo relative pose from line and point feature triplets Authors Alexander Vakhitov, Victor Lempitsky, Yinqiang Zheng 立体相对姿势问题是在许多应用中使用的立体视觉测距系统的核心。在这项工作中,我们提出了两个用于立体相对姿势的最小解算器。我们特别考虑最小集由三个点或线特征组成的情况,并且每个特征在两个立体相机上具有三个已知投影。我们在运动估计实验中验证了该配方在实际应用中的重要性。然后,我们提出了一个完整的最小案例分类,其中三个点或线对应,每个都有三个投影,并提出两个新的求解器,可以处理所有这些情况。我们通过将新求解器集成到可视SLAM系统中展示了相当大的效果。 |
+++NetTailor: Tuning the Architecture, Not Just the Weights Authors Pedro Morgado, Nuno Vasconcelos 对象识别的真实世界应用通常需要在单个平台中解决多个任务。在网络微调的标准范例下,每个任务都学习一个全新的CNN,最终的网络规模与任务复杂性无关。这是浪费的,因为简单的任务需要比更复杂的任务更小的网络,并且限制了可以同时解决的任务的数量。为了解决这些问题,我们提出了一种转移学习过程,表示为NetTailor,其中预先训练的CNN的层被用作通用块,其可以与小任务特定层组合以生成新网络。除了最小化分类错误之外,新网络被训练为模仿强无约束CNN的内部激活,并且通过结合块上的软注意机制和2个复杂度正则化约束来最小化其复杂性。通过这种方式,NetTailor可以使网络架构(而不仅仅是其权重)适应目标任务。实验表明,适应简单任务(如角色或交通标志识别)的网络比适应硬任务(如细粒度识别)的网络要小得多。更重要的是,由于该过程的模块化特性,在不牺牲任务间的参数共享或分类准确性的情况下实现了网络复杂性的这种降低。 |
DuDoNet: Dual Domain Network for CT Metal Artifact Reduction Authors Wei An Lin, Haofu Liao, Cheng Peng, Xiaohang Sun, Jingdan Zhang, Jiebo Luo, Rama Chellappa, Shaohua Kevin Zhou 计算机断层扫描CT是一种广泛用于医学诊断和治疗的成像模式。当患者携带金属植入物时,CT图像经常被不希望的伪像破坏,这产生了金属伪影减少MAR的问题。由于两个主要原因,用于减少由金属植入物引起的伪影的现有方法是不合适的。首先,金属伪像是结构化的和非局部的,因此简单的图像域增强方法是不够的。其次,试图减少X射线投影正弦图域中的金属伪影的MAR方法不可避免地由于正弦图不一致而导致严重的二次伪影。为了克服这些困难,我们提出了一种端到端的可训练双域网络DuDoNet,以同时恢复正弦图一致性并增强CT图像。 sigogram和image域之间的联系是一种新颖的Radon反转层,它允许梯度在训练期间从图像域反向传播到正弦图域。大量实验表明,我们的方法比其他单域MAR方法实现了显着的改进。据我们所知,这是结束MAR双域网络的第一个终点。 |
+++Learning to Generate Synthetic 3D Training Data through Hybrid Gradient Authors Dawei Yang, Jia Deng 由图形引擎呈现的合成图像是用于训练深度网络的有前途的来源。然而,确保它们可以帮助训练网络在真实图像上表现良好是具有挑战性的,因为基于图形的生成管道需要许多设计决策,例如3D形状的选择和相机的放置。在这项工作中,我们提出了一种新方法,该方法基于我们所谓的混合梯度来优化3D训练数据的生成。我们将设计决策参数化为实数向量,并将近似梯度和分析梯度组合以获得相对于该向量的网络性能的混合梯度。我们评估我们从单个图像估计表面法线的任务的方法。在标准基准上的实验表明,我们的方法在优化3D训练数据的生成方面可以优于现有技术水平,特别是在计算效率方面。 |
Evaluating Local Geometric Feature Representations for 3D Rigid Data Matching Authors Jiaqi Yang, Siwen Quan, Peng Wang, Yanning Zhang 局部几何描述符仍然是3D刚性数据匹配和融合的基本组成部分。旋转不变局部几何描述符的设计通常包括两步本地参考系LRF构造和特征表示。现有的评估工作主要是在LRF或整体描述符上进行的,但特征表示的定量比较仍未得到探索。本文通过综合评估九种最先进的局部几何特征表示来填补这一空白。我们的评估基于以下方面:利用基础事实LRF,使得经过测试的特征表示的排序与现有研究相比更具说服力。实验部署在六个标准数据集上,具有各种应用场景形状检索,点云配准,物体识别和数据模态LiDAR,Kinect和时空以及扰动,包括高斯噪声,散粒噪声,数据抽取,杂波,遮挡,和有限的重叠。评估的术语涵盖了特征表示的主要问题,例如,独特性,鲁棒性,紧凑性和效率。结果提出了有趣的发现,可以为这个社区提供新的视角,并为现有的关于局部几何特征描述主题的评估提供补充的观点。还介绍了有关其特性的评估方法的摘要,以指导现实世界的应用和新的描述符制作。 |
Predicting Social Perception from Faces: A Deep Learning Approach Authors U. Messer, S. Fausser 温暖和能力代表了社会判断的基本特征,决定了对社会目标的情绪反应和行为意图。该研究调查了一种算法是否可以学习社会分类的视觉表征,并准确地预测人类感知者对面部图像的温暖和能力的印象。此外,这项研究揭示了面部哪些区域对于温暖和能力的分类很重要。我们使用深度卷积神经网络从面部图像和梯度加权类激活映射梯度CAM方法中提取特征,以了解面部区域对分类的重要性。给定单个面部图像,训练的算法可以准确地预测温度印象,精确度约为90,能力印象精确度约为80。这些发现对面部的自动处理和人工角色的设计都有影响。 |
Non-destructive three-dimensional measurement of hand vein based on self-supervised network Authors Xiaoyu Chen, Qixin Wang, Jinzhou Ge, Yi Zhang, Jing Han 目前,基于深度神经网络的监督立体方法取得了令人瞩目的成果。但是,在某些情况下,准确的三维标签对于监督培训是不可访问的。在本文中,提出了一种自监视网络用于双目视差匹配SDMNet,它从立体图像对计算密集视差图而没有视差标签。在自监督训练中,我们密集地匹配立体图像以近似视差图并使用它们来扭曲左右图像用于估计左右图像,我们在估计图像和原始图像之间建立自我监督训练的损失函数,采用感知损失来帮助提高细节和结构中视差图的质量。然后,我们使用SDMNet来获得手部静脉的差异。 SDMNet在KITTI 2012,KITTI 2015,模拟静脉数据集和真实静脉数据集上取得了优异的成果,超越了许多最先进的监督匹配方法。 |
Learning Where to Look While Tracking Instruments in Robot-assisted Surgery Authors Mobarakol Islam, Yueyuan Li, Hongliang Ren 在手术中跟踪仪器时指导任务特别注意在机器人辅助干预中具有很大的潜力。为此,我们提出了一种用于实时手术器械分割和注意力预测的端到端可训练多任务学习MTL模型。我们的模型设计有重量共享编码器和两个面向任务的解码器,并针对联合任务进行了优化。我们引入批量Wasserstein bW损失并构建一个软关注模块,以完善独特的视觉区域,实现高效的显着性学习。对于多任务优化,在同一时期内获得两个任务的收敛总是具有挑战性。我们通过采用多重减重和两个阶段的训练来解决这个问题。我们进一步提出了一种在MICCAI机器人仪器分割数据集上生成任务感知显着图和仪器扫描路径的新方法。与最先进的细分和显着性模型相比,我们的模型优于大多数评估指标。 |
High Sensitivity Snapshot Spectrometer Based on Deep Network Unmixing Authors XiaoYu Chen, Xu Wang, Lianfa Bai, Jing Han, Zhuang Zhao 在本文中,我们提出了一种基于卷积神经网络的方法,从重叠的色散光谱中恢复光强度分布,而不是添加额外的光路,以便首次直接捕获它。然后,我们基于我们以前的双路径快照光谱仪构建单路径子Hadamard快照光谱仪。在所提出的单路光谱仪中,我们使用重建的光强度作为原始光强度并成功地恢复高信噪比光谱。与双路快照光谱仪相比,基于网络的单路光谱仪具有更紧凑的结构,保持快照和高灵敏度。大量的模拟和实验结果表明,与双路径子Hadamard光谱仪相比,该方法可以获得更好的重建信噪比光谱,因为它具有更高的光通量。 |
frame attention networks for facial expression recognition in videos Authors Debin Meng, Xiaojiang Peng, Kai Wang, Yu Qiao 基于视频的面部表情识别旨在将给定视频分类为几种基本情绪。如何整合各个框架的面部特征对于此任务至关重要。在本文中,我们提出帧注意网络FAN,以自动突出端到端框架中的一些判别框架。网络采用具有可变数量的面部图像的视频作为其输入并产生固定的维度表示。整个网络由两个模块组成。特征嵌入模块是深度卷积神经网络CNN,其将面部图像嵌入到特征向量中。帧关注模块学习多个关注权重,其用于自适应地聚合特征向量以形成单个判别视频表示。我们在CK和AFEW8.0数据集上进行了大量实验。与其他基于CNN的方法相比,我们提出的FAN表现出优越的性能,并且在CK上实现了最先进的性能。 |
Improved ICH classification using task-dependent learning Authors Amir Bar, Michal Mauda, Yoni Turner, Michal Safadi, Eldad Elnekave 头部CT是急诊科设置中最常进行的影像学研究之一,颅内出血ICH是头部CT检测中最关键和最敏感的发现之一。我们介绍了BloodNet,一种深度学习架构,旨在对头部CT进行最佳分类,目标是缩短从CT采集到精确ICH检测的时间。 BloodNet架构结合了独立的分段和分类任务之间的依赖关系,实现了改进的分类结果。据报道,在从超过10家不同医院获得的超过1400项研究中,持有的阳性富集和随机抽样组的AUC为0.9493和0.9566。这些结果与先前报道的结果相当,标记研究数量较少。 |
RFBNet: Deep Multimodal Networks with Residual Fusion Blocks for RGB-D Semantic Segmentation Authors Liuyuan Deng, Ming Yang, Tianyi Li, Yuesheng He, Chunxiang Wang 来自RGB和深度数据的信号携带有关场景的补充信息。传统的RGB D语义分割方法采用两种流融合结构,使用两种模态特定编码器从RGB和深度数据中提取特征。目前还没有明确的机制来模拟编码器之间的相互依赖性。这封信提出了一种新颖的自下而上的交互式融合结构,它引入了一种交互流来桥接模态特定的编码器。交互流逐渐聚合来自编码器的模态特定特征,并计算编码器的互补特征。为了实例化该结构,该字母提出了残余融合块RFB以制定编码器的相互依赖性。 RFB由两个剩余单元和一个带有门机构的融合单元组成。它学习模态特定编码器的互补特征,并提取模态特定特征以及交叉模态特征。基于RFB,该信函展示了用于RGB D语义分割的深度多模网络,称为RFBNet。在两个数据集上进行的实验证明了相互依赖性建模的有效性,并且RFBNet优于最先进的方法。 |
Robustness Guarantees for Deep Neural Networks on Videos Authors Min Wu, Marta Kwiatkowska 深度学习模型的广泛采用对其稳健性提出了要求。在本文中,我们考虑了视频上的深度神经网络的鲁棒性,其包括由卷积神经网络提取的各个帧的空间特征和由递归神经网络捕获的相邻帧之间的时间动态。为了测量鲁棒性,我们研究了最大安全半径问题,该问题计算从给定输入获得的光流集与标准球中的对抗示例的最小距离。我们证明,在Lipschitz连续性的假设下,可以通过离散光流空间使用有限优化来近似问题,并且近似具有可证明的保证。然后,我们表明可以通过在协作设置中利用基于双玩家回合的游戏来解决有限优化问题,其中第一玩家选择光流并且第二玩家确定要在所选流中操纵的尺寸。我们采用随时随地的方法解决游戏问题,即通过单调改进游戏的上限和下限来近似游戏的价值。我们利用基于梯度的搜索算法来计算上界,并利用可允许的A算法来更新下界。最后,我们在UCF101视频数据集上评估我们的框架。 |
++A 1d convolutional network for leaf and time series classification Authors Dongyang Kuang 本文设计了一种1d卷积神经网络,用于以质心轮廓距离曲线CCDC为单一特征的叶片分类任务。使用这种分类器,CCDC的简单特征显示出比以前人们想象的更强的辨别能力。相同的体系结构也可用于对1维时间序列进行分类,几乎没有变化。对一些基准数据集的实验表明,该体系结构可以提供比某些现有方法更高的分类精度。该文件的代码可在以下网址找到 |
On Reducing Negative Jacobian Determinant of the Deformation Predicted by Deep Registration Networks Authors Dongyang Kuang 图像配准是医学图像分析的基本步骤。理想情况下,将一个图像注册到另一个图像的转换应该是可逆和平滑的微分同胚。传统方法如测地线射击通过微分几何来解决问题,理论上保证了所产生的变换将是平滑和可逆的。大多数先前使用无监督深度神经网络进行配准的研究通常使用局部平滑约束,空间变化损失来解决平滑问题。这些网络通常产生具有在多个体素位置折叠的不可逆变换,由变换的雅可比矩阵的负行列式表示。虽然使用特别惩罚折叠的损耗函数是一种简单的解决方案,但这通常需要仔细调整正则化强度,尤其是在存在其他损失时。在本文中,我们通过研究可能的训练机制从不同角度解决这个问题,这些机制将帮助网络避免负面的雅可比人并产生更平滑的变形。我们在这方面贡献了两个独立的想法。这两种想法都大大减少了预测变形中折叠位置的数量,而没有对现有基线配准网络中使用的超参数或体系结构进行更改。 |
Explainable Shape Analysis through Deep Hierarchical Generative Models: Application to Cardiac Remodeling Authors Carlo Biffi, Juan J. Cerrolaza, Giacomo Tarroni, Wenjia Bai, Ozan Oktay, Loic Le Folgoc, Konstantinos Kamnitsas, Antonio de Marvao, Georgia Doumou, Jinming Duan, Sanjay K. Prasad, Stuart A. Cook, Declan P. O Regan, Daniel Rueckert 解剖形状变化的量化仍依赖于标量全局指数,其对区域或不对称修改很不敏感。准确评估病理学驱动的解剖学重塑是心脏病的诊断和治疗的关键步骤。深度学习方法最近在医学图像分析方面取得了广泛的成功,但它们在特征提取和决策过程中缺乏可解释性。在这项工作中,我们提出了一种新的可解释的形状分析深度学习模型。特别地,我们利用深度生成网络通过条件潜在变量的层次来对解剖分割的群体进行建模。在该层次结构的最高级别,同时优化二维潜在空间以区分不同的临床状况,从而实现分类空间的直接可视化。此外,由于模型的生成特性,可以在分割空间中可视化由该判别性潜在空间编码的解剖变异性,使得分类任务透明。当在我们自己的多中心数据集以及外部验证集中对看不见的分割进行测试时,这种方法在健康和重塑心脏的分类中产生了高精度。更重要的是,它使得在两个条件之间的最具辨别力的解剖学特征的三维可视化成为可能。所提出的方法有效地扩展到大群体,在大规模体积成像研究中促进正常解剖学和病理学的高通量分析。 |
Classification of glomerular hypercellularity using convolutional features and support vector machine Authors Paulo Chagas, Luiz Souza, Ikaro Ara jo, Nayze Aldeman, Angelo Duarte, Michele Angelo, Washington LC dos Santos, Luciano Oliveira 肾小球是由交织的毛细血管形成的肾皮质的组织结构,并且负责血液过滤。肾小球病变损害肾脏过滤能力,导致蛋白质损失和代谢废物保留。损伤的一个例子是肾小球细胞过多,其特征在于肾小球不同区域中细胞核数量的增加。肾小球细胞过多症是不同肾脏疾病中常见的病变。自动检测肾小球细胞过多将加速扫描病变的扫描组织切片,增强临床诊断。考虑到这一点,我们提出了一种新的方法来分类人类肾脏图像中的细胞过多。我们提出的方法引入了卷积神经网络CNN的新颖架构以及支持向量机,利用二进制分类病变或正常的FIOCRUZ数据集实现接近完美的平均结果。我们的基于深度的分类器在同一数据集上优于最先进的结果。另外,在这个多分类任务中,考虑到系膜,内皮和两个病变,还进行了细胞过程亚损伤的分类,我们提出的方法在4个病例中失败了。据我们所知,这是对人体肾脏肾小球细胞过度图像数据集深入学习的第一项研究。 |
++++高效的NAS设计实现CMU_Single-Path Mobile AutoML: Efficient ConvNet Design and NAS Hyperparameter Optimization Authors Dimitrios Stamoulis, Ruizhou Ding, Di Wang, Dimitrios Lymberopoulos, Bodhi Priyantha, Jie Liu, Diana Marculescu 我们能否将神经架构搜索NAS的搜索成本从几天降低到仅几个小时NAS方法在硬件限制下自动设计卷积网络会议,它们已成为AutoML框架的关键组件。然而,由于组合的大型设计空间和至少200个GPU小时的显着搜索时间,NAS问题仍然具有挑战性。在这项工作中,我们将NAS搜索成本降低到不到3小时,同时在移动延迟限制下实现最先进的图像分类结果。我们提出了一种新颖的可区分NAS公式,即单路径NAS,它使用参数化的ConvNet上的单个路径来编码基于共享卷积核参数的所有架构决策,因此大大降低了搜索开销。 Single Path NAS实现了最先进的ImageNet精度75.62,因此在80ms的类似延迟设置中优于现有的移动NAS方法。特别是,我们通过使用我们新颖的单路径编码将挤压和激励路径视为完全可搜索的操作,增强了可微分NAS中的精度运行时折衷。我们的方法总成本仅为8个时期24 TPU小时,比之前的工作快了5,000倍。此外,我们研究不同的NAS配方选择如何影响设计的ConvNets的性能。此外,我们利用我们的方法的效率来回答一个有趣的问题,而不是像以前的工作那样凭经验调整NAS求解器的超参数,我们能否自动找到产生所需精度的超参数值运行时权衡我们开源整个代码库在 |
++UltraSuite: A Repository of Ultrasound and Acoustic Data from Child Speech Therapy Sessions Authors Aciel Eshky, Manuel Sam Ribeiro, Joanne Cleland, Korin Richmond, Zoe Roxburgh, James Scobbie, Alan Wrench 我们介绍了UltraSuite,这是一个精选的超声和声学数据库,收集自儿童语言治疗课程的录音。此版本包括三个数据集,一个来自典型的发育中的儿童,两个来自患有语音障碍的儿童。此外,它还包括一组注释,一些手动和一些自动生成,以及用于处理,转换和可视化数据的软件工具。 |
Synchronising audio and ultrasound by learning cross-modal embeddings Authors Aciel Eshky, Manuel Sam Ribeiro, Korin Richmond, Steve Renals 视听同步是确定语音音频和发音器的视频记录之间的时间偏移的任务。在儿童言语治疗中,使用依靠硬件在记录时同步两种模态的仪器捕获舌头的音频和超声视频。硬件同步在实践中可能会失败,并且不存在事后同步信号的机制。为了解决这个问题,我们采用了一个双流神经网络,它利用两种模态之间的相关性来找到偏移量。我们在69个扬声器的录音中训练我们的模型,并表明它正确地将82.9个测试话语与看不见的治疗会话和看不见的扬声器同步,从而大大减少了手动同步的话语数量。对测试话语的模型性能的分析表明,与包含诸如单词,句子或对话的语音中的自然变化的话语相比,定向电话关节更难以自动同步。 |
Deep Multi-Task Learning for Anomalous Driving Detection Using CAN Bus Scalar Sensor Data Authors Vidyasagar Sadhu, Teruhisa Misu, Dario Pompili 在将人工智能AI系统应用于安全关键应用时,拐角情况是主要的瓶颈。 AI系统应该足够智能以检测这种情况,以便系统开发人员可以为后续规划做好准备。在本文中,我们提出了考虑正常情况不平衡的半监督异常检测。特别地,驾驶数据包括多个正的正常情况,例如右转,直行,其中一些例如U转弯可能与异常情况一样罕见。当应用于这种不平衡数据时,基于现有机器学习的异常检测方法不能很好地完成。在本文中,我们提出了一种新的基于多任务学习的方法,该方法利用领域知识机动标签来驱动数据中的异常检测。我们在150小时的实际驾驶数据上定量和定性地评估所提出的方法,并显示出比基线方法更好的性能。 |
Avoiding Implementation Pitfalls of "Matrix Capsules with EM Routing" by Hinton et al Authors Ashley Daniel Gritzman Hinton等人最近在胶囊网络方面取得的进展。在机器学习社区引起了相当大的兴奋。胶囊背后的想法受到大脑中皮质微柱的启发,其中由大约100个神经元组成的垂直组织组接收共同输入,具有共同输出,相互连接,并且可能构成大脑皮层的基本计算单元。然而,不幸的是,Hinton关于带有EM路由的Matrix Capsule的论文没有附带源代码的发布,这使得感兴趣的研究人员试图实现该架构并自己重现基准。这无疑减缓了这项工作的研究进展。在编写我们自己的实现时,我们注意到我们遇到的其他开源实现中的几个常见错误。在本文中,我们分享了一些这些学习,特别关注三个实现缺陷以及如何避免它们1个父母胶囊只有一个孩子2规范分配给父胶囊的数据量3个不同位置的父胶囊竞争儿童胶囊。虽然我们的实施相对于目前可用的实施方案有了相当大的改进,但它仍然略微低于Hinton等人报告的性能。 2018年。此实现的源代码可在GitHub的以下URL中找到 |
Weight Normalization based Quantization for Deep Neural Network Compression Authors Wen Pu Cai, Wu Jun Li 随着深度神经网络的发展,网络模型的规模越来越大。模型压缩已成为将这些网络模型部署到移动或嵌入式设备的迫切需求。模型量化是代表性的模型压缩技术。尽管已经提出了许多量化方法,但是它们中的许多都遭受由网络权重的长尾分布引起的高量化误差。在本文中,我们提出了一种新的量化方法,称为基于权重归一化的量化WNQ,用于模型压缩。 WNQ采用权重归一化来避免网络权重的长尾分布,从而减少量化误差。 CIFAR 100和ImageNet上的实验表明,WNQ可以超越其他基线,以实现最先进的性能。 |
Conditional Segmentation in Lieu of Image Registration Authors Yipeng Hu, Eli Gibson, Dean C. Barratt, Mark Emberton, J. Alison Noble, Tom Vercauteren 经典的成对图像配准方法搜索空间变换,该空间变换优化表示一对移动和固定图像对齐的数值测量。当前基于学习的配准方法采用相同的范例,并且对于任何新的输入图像对,通常预测密集位移场形式的密集对应或空间变换模型的参数。然而,在许多注册应用中,空间变换本身仅需要传播感兴趣的点或区域ROI。在这种情况下,这些ROI内部或外部的详细像素或体素水平对应通常具有很小的临床价值。在本文中,我们提出了一种替代范例,其中学习在一个图像中定义的相应图像特定ROI在另一图像内的位置。这导致通过条件分割算法替换图像配准,其可以建立在典型的图像分割网络上以及它们广泛采用的训练策略。以3D MRI和前列腺超声图像的配准为例来说明这种新方法,我们报告术中超声图像定义的基础真实ROI与术前MR图像传播的ROI之间的中位目标配准误差TRE为2.1 mm。 。与使用先前提出的空间变换预测的登记网络获得的那些相比,使用所提出的条件分割获得显着更低的34个TRE,所述空间变换预测用单个图像对的相同多个ROI标签训练的登记网络。我们通过使用定量偏差方差分析来总结这项工作,以提供观察到的注册准确性改进的一种解释。 |
Multi-Label Product Categorization Using Multi-Modal Fusion Models Authors Pasawee Wirojwatanakul, Artit Wangperawong 在这项研究中,我们使用图像,描述和标题来研究多模态方法,以对电子商务产品进行分类 |
GarmNet: Improving Global with Local Perception for Robotic Laundry Folding Authors Daniel Fernandes Gomes, Shan Luo, Luis F. Teixeira 开发自主助理以帮助完成家务是机器人研究中的一个重要课题。在这些任务中,服装折叠是其中之一仍然远未实现,主要是由于皱褶的衣服可能呈现的大量可能的构造。已经进行了关于估计整个服装的姿势或者分别检测地标以进行研究的研究。然而,这样的工作通过限制单个任务的表示来约束机器人感知服装状态的能力。在本文中,我们提出了一种新颖的端到端深度学习模型GarmNet,它能够同时定位服装并检测地标以便抓取。服装的定位表示用于识别服装类别的全局信息,而标志的检测可以促进随后的抓取动作。我们使用CloPeMa Garment数据集训练和评估我们提出的GarmNet模型,该数据集包含不同姿势的不同服装类型的3,330张图像。实验表明,包含地标检测GarmNet B可以大大改善服装定位,错误率降低24.7。我们的解决方案对于机器人应用非常重要,因为它们可以扩展到许多类,内存和处理高效的解决方案。 |
Collaboration of AI Agents via Cooperative Multi-Agent Deep Reinforcement Learning Authors Niranjan Balachandar, Justin Dieter, Govardana Sachithanandam Ramachandran 有许多AI任务涉及多个交互代理,代理应该学习合作和协作以有效地执行任务。在这里,我们开发和评估各种多代理协议,以培训代理与网格足球中的队友协作。我们针对使用智能手动编码策略的团队培训和评估我们的多代理方法。作为基准,我们同时并独立地培训代理人,没有沟通。我们的协作协议是参数共享,协调学习与沟通,以及反事实政策梯度。对于手动编码团队,团队通过参数共享进行训练,并且在协调学习训练的团队中,在与手动编码团队比赛时,分别以89.5和94.5的分数进行了最佳评分。针对参数分享团队,通过对抗性训练,协调学习团队对75集进行了评分,表明它是我们方法中最具适应性的。从我们的工作中获得的见解可以应用于多代理协作可能有益的其他领域。 |
Dissecting Pruned Neural Networks Authors Jonathan Frankle, David Bau 修剪是一种标准技术,用于从神经网络中移除不必要的结构,以减少其存储空间,计算需求或能耗。修剪可以将许多现有技术神经网络的参数计数减少一个数量级而不损害准确性,这意味着这些网络包含大量不必要的结构。在本文中,我们研究修剪和解释之间的关系。也就是说,我们考虑去除不必要的结构对隐藏单元数量的影响,这些隐藏单元学习通过网络解剖识别的人类可识别概念的解开的表示。我们的目标是评估修剪后的神经网络在压缩时的可解释性如何变化。我们发现修剪对这种可解释性度量没有不利影响,直到很少的参数仍然存在准确性下降。在ImageNet上训练的Resnet 50模型保持相同数量的可解释概念和单元,直到修剪了90多个参数。 |
Robust Linear Discriminant Analysis Using Ratio Minimization of L1,2-Norms Authors Feiping Nie, Hua Wang, Zheng Wang, Heng Huang 线性判别分析LDA方法作为最受欢迎的线性子空间学习方法之一,已在机器学习领域得到广泛研究,并应用于许多科学应用。传统的LDA最小化了L2范数的平方比率,这对异常值很敏感。在最近的研究中,提出了许多基于L1范数的鲁棒主成分分析方法来提高对异常值的鲁棒性。然而,由于L1范数比优化的困难,到目前为止还没有现成的工作来利用LDA目标的稀疏诱导规范。在本文中,我们提出了一种基于L1,2范数比最小化的鲁棒线性判别分析方法。最小化L1,2范数比是比传统方法更具挑战性的问题,并且没有现有的优化算法来解决这种非平滑项比率问题。我们推导出一种新的有效算法来解决这一具有挑战性的问题,并对算法的收敛性进行了理论分析。该算法易于实现,并且在实践中快速收敛。对合成数据和九个真实基准数据集的广泛实验表明了所提出的鲁棒LDA方法的有效性。 |
Chinese Abs From Machine Translation |