【AI视野·今日CV 计算机视觉论文速览 第194期】Mon, 10 May 2021

378 篇文章 74 订阅
285 篇文章 55 订阅

AI视野·今日CS.CV 计算机视觉论文速览
Mon, 10 May 2021
Totally 54 papers
👉上期速览更多精彩请移步主页

Interesting:

📚*****NTIRE 2021, 总结!(from cvpr2012)
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

web:https://data.vision.ee.ethz.ch/cvl/ntire21/


*****📚基于transformer的端到端多目标跟踪技术, (from 旷视)
在这里插入图片描述在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
code: https://github.com/megvii-model/MOTR

*****📚ResMPL, 一种基于残差多层感知机的新型网络 (from Facebook)
在这里插入图片描述在这里插入图片描述


*****📚Salient Objects in Clutter, 遮挡物的显著性检测数据集(from 南开程明明课题组 TPAMI)
在这里插入图片描述
在这里插入图片描述

文章中对于显著性检测算法和数据集有非常丰富的总结, 写作方法和论文结构值得借鉴
link:http://dpfan.net/SOCBenchmark/


📚NeRD, 基于神经网络和几何建模的的对称性检测 (from 伯克利)
在这里插入图片描述
在这里插入图片描述

link: https://github.com/zhou13/nerd


📚三维点云包络重建, (from 慕尼黑大学LMU)
在这里插入图片描述


***📚微生物目标检测和图像分析技术综述, (from 东北大学)
在这里插入图片描述在这里插入图片描述


📚螃蟹检测,海底找螃蟹 (from 英国南安普顿大学)
在这里插入图片描述


📚sky image 和太阳辐射值数据集, (from ETHz)
在这里插入图片描述
dataset: https://github.com/vglsd/SkyCam

📚基于sky image的短时天气预报, (from 奥地利克拉根福阿尔卑斯-亚德里大学 )
在这里插入图片描述
在这里插入图片描述

dataset:
1 https://maps.nrel.gov/nsrdb-viewer/
2 https://midcdmz.nrel.gov/apps/sitehome.pl?site=OAHUGRID
3 https://www.esrl.noaa.gov/gmd/grad/surfrad/dataplot.html
4 http://www.soda-pro.com/web-services
5 http://https://dds.cr.usgs.gov/srtm/

📚基于扫描点云的棚户区形态学分析
在这里插入图片描述

dataset: https://www.brtech3d.com.br/


Daily Computer Vision Papers

ResMLP: Feedforward networks for image classification with data-efficient training
Authors Hugo Touvron, Piotr Bojanowski, Mathilde Caron, Matthieu Cord, Alaaeldin El Nouby, Edouard Grave, Armand Joulin, Gabriel Synnaeve, Jakob Verbeek, Herv J gou
我们呈现RESMLP,这是一个完全基于多层Perceptrons的架构进行图像分类。它是一种简单的残余网络,其替换I一种线性层,其中图像补丁在通道上独立地且相同地相互作用,并且II在每个贴片中独立地相互交互的两层馈送前进网络。使用繁重的数据增强和任选地蒸馏有现代培训策略培训时,它可以在想象中获得惊人的良好精度复杂性贸易。我们将根据Timm Library和预训练模型分享我们的代码。

Foreground-guided Facial Inpainting with Fidelity Preservation
Authors Jireh Jam, Connah Kendrick, Vincent Drouard, Kevin Walker, Moi Hoon Yap
面部图像染色,具有高保真保存的图像现实主义,是一个非常具有挑战性的任务。这是由于关键面部特征组件的微妙纹理,这些组件不易转移。已经提出了许多图像染色技术,具有出色的能力和记录的高量值性能。然而,通过面部染色,特征更加显着,混合的染色区域的视觉质量更为重要。基于这些事实,我们设计了一种前景导游的面部染色框架,可以使用卷积神经网络层提取和产生面部特征。它介绍了前景分割面罩的使用以保持保真度。具体而言,我们提出了一种新的损失功能,具有面部表情的语义能力推理,自然和不自然的特征构成。我们使用Celeba HQ数据集进行实验,来自Celebamask总部的分段掩码,用于前景指导和缺失区域的快速绘制蒙版。我们所提出的方法在与现有技术相比但定性时,实现了类似的定量结果,展示了面部部件的高保真保存。

Exploring Instance Relations for Unsupervised Feature Embedding
Authors Yifei Zhang, Yu Zhou, Weiping Wang
尽管在无监督的功能嵌入方面取得了巨大进展,但现有的对比学习方法通​​常通过吸引积极样本对和在嵌入空间中排斥负样品对来追求不变的表示,同时忽略系统地探索实例关系。在本文中,我们探讨了实例关系,包括用于无监督功能嵌入的IntraIntual Multi View关系和Inter实例内插关系。具体地,我们通过对准实例S不同增强样本和负样本之间的距离的分布来嵌入内部实例多视图关系。我们通过将图像样本插值的信息与从像素空间传送到特征嵌入空间来探索Inter实例插值关系。所提出的方法称为EIR,简单而且有效,并且可以轻松插入现有的视图不变的对比基于学习的方法。对图像分类和检索报告最新状态或可比性的公共基准测试的实验。

Towards Real-World Category-level Articulation Pose Estimation
Authors Liu Liu, Han Xue, Wenqiang Xu, Haoyuan Fu, Cewu Lu
人类的生命被铰接物填充。当前类别级化剖形姿势估计CAPE方法在单个实例设置下进行了针对每个类别的固定运动结构进行研究。考虑到这些限制,我们改革了真实世界环境的这个问题设置,并建议了Cape Real Caper任务设置。此设置允许在语义类别中的各种运动结构,以及在现实世界的观察中存在多个实例。为了支持此任务,我们构建了一个铰接式模型存储库后部48并呈现了一个有效的数据集生成管道,其中包含快速铰接的对象建模Faom和半正宗混合现实技术Samert。伴随管道,我们构建了一个大规模混合现实数据集后退和Rearttval。我们还提出了一种有效的框架Reartnoc,该框架Reartnocs利用RGB D输入来估算单个前向通过中多个实例的零件级别姿势。广泛的实验表明,所提出的Resttnocs可以在普通帽和斗篷设置上实现良好的性能。我们认为它可以作为普通任务的未来研究的强大基准。

MOTR: End-to-End Multiple-Object Tracking with TRansformer
Authors Fangao Zeng, Bin Dong, Tiancai Wang, Cheng Chen, Xiangyu Zhang, Yichen Wei
多目标跟踪MOT任务中的关键挑战是轨道下对象的时间建模。通过检测方法现有的跟踪采用简单的启发式,例如空间或外观相似性。尽管它们的共性,这种方法是过于简单且不足地模拟复杂变化,例如通过遮挡跟踪。本质上,现有方法缺乏学习与数据的时间变化的能力。在本文中,我们呈现MOTR,第一个完全结束到结束多个对象跟踪框架。它学会模拟对象的长距离时间变量。它隐含地执行时间关联,并避免以前的显式启发式。基于变压器和DETR,MOTR介绍了轨道查询的概念。每个轨道查询模拟整个对象的轨道。它通过帧传送和更新帧,以无缝方式执行对象检测和跟踪。建议将时间聚合网络与多帧训练相结合,以模拟远程时间关系。实验结果表明,MOTR实现了现有性能的状态。代码可用

Adaptive Focus for Efficient Video Recognition
Authors Yulin Wang, Zhaoxi Chen, Haojun Jiang, Shiji Song, Yizeng Han, Gao Huang
在本文中,我们探讨了视频识别中的空间冗余,旨在提高计算效率。观察到视频的每个帧中最具信息丰富的区域通常是一个小图像贴片,其在帧上平滑地移动。因此,我们将补丁定位问题模拟作为顺序决策任务,并提出了一种基于加强学习的方法,用于高效的空间自适应视频识别Adafocus。具体而言,首先采用光加权ConvNet来快速处理完整的视频序列,其功能由经常性策略网络本地化最多的相关区域。然后通过用于最终预测的高容量网络推断出所选择的贴片。在离线推断过程中,一旦生成了信息性修补程序序列,可以并行完成大量计算,并且在现代GPU设备上是有效的。另外,我们证明了所提出的方法可以通过进一步考虑时间冗余,例如,动态跳过更少的有价值帧来容易地扩展。关于五个基准数据集,即ActivityNet,FCVID,Mini动力学,一些V1 V2的大量实验表明,我们的方法比竞争基线更有效。代码将可用

Mini-batch graphs for robust image classification
Authors Arnab Kumar Mondal, Vineet Jain, Kaleem Siddiqi
计算机视觉中的分类任务的当前深度学习模型使用迷你批次培训。在本文中,我们利用了使用图形神经网络在迷你批处理中的样本之间的关系来聚合来自类似图像的信息。这有助于减轻改变对分类性能的输入图像的不利影响。在基于图像的物体和场景分类上的不同实验表明,这种方法不仅提高了分类器的性能,而且增加了对图像扰动和对抗攻击的鲁棒性。此外,我们还表明,迷你批量图神经网络可以有助于缓解生成对抗网络中的模式崩溃问题。

Towards Accurate Text-based Image Captioning with Content Diversity Exploration
Authors Guanghui Xu, Shuaicheng Niu, Mingkui Tan, Yucheng Luo, Qing Du, Qi Wu
基于文本的图像标题TextCAP,其旨在阅读和具有文本的图像对机器来说是一个对理解详细和复杂的场景环境的机器,考虑到日常生活中的全部。然而,这项任务非常具有挑战性,因为图像通常包含复杂的文本和难以全面描述的视觉信息。现有方法尝试扩展传统的图像标题方法来解决此任务,专注于描述一个全局标题的图像整体场景。这是不可行的,因为在一个字幕中,不能良好描述复杂的文本和可视信息。为了解决这个困难,我们寻求生成一系列准确描述图像的不同部分的标题。为实现此目的,有三个关键挑战1,很难确定要复制或解释2的图像文本的部分,因此捕获图像3中不同文本之间的复杂关系是如何生成多个标题的不同的内容仍然是一个公开问题。为了征服这些,我们提出了一种新颖的锚标题方法。具体来说,我们首先找到应该得到更多关注的重要令牌,并将它们视为锚点。然后,对于每个所选择的锚定,我们将其相关文本分组以构造相应的锚点居中图ACG。最后,基于不同的ACG,我们进行多视图字幕生成,以改善生成标题的内容分集。实验结果表明,我们的方法不仅达到了SOTA性能,还可以生成不同的标题来描述图像。

Favelas 4D: Scalable methods for morphology analysis of informal settlements using terrestrial laser scanning data
Authors Arianna Salazar Miranda, Guangyu Du, Claire Gorman, Fabio Duarte, Washington Fajardo, Carlo Ratti
十亿人生活在全球的非正式定居点。复杂和多层空间,表征了这种无计划的城市化形式的挑战对传统的绘图和形态分析的方法构成挑战。本研究提出了一种方法来研究基于地面LIDAR光探测和罗西岛,巴西里约热内卢最大的Favela收集的陆地潮汐光检测和测距数据的形态学性能。我们的分析在两项决议下运作,包括EMPH全球分析,专注于将Favela的不同街道相互比较,以及揭开街道内形态学指标的变化的局部分析。我们表明我们的方法论在街道上的全球形态特征和当地分布方面都揭示了有意义的差异和共性。最后,我们在LIDAR数据中创建了高空间分辨率的形态图,可以为城市规划评估与福管中拥挤,结构安全,空气质量和可访问性有关。本研究的方法是自动的,可以很容易地扩展以分析整个非正式的结算,利用诸如手机等便携式设备上的廉价LIDAR扫描仪的增加的可用性。

Regression on Deep Visual Features using Artificial Neural Networks (ANNs) to Predict Hydraulic Blockage at Culverts
Authors Umair Iqbal, Johan Barthelemy, Wanqing Li, Pascal Perez
交叉排水液压结构I.,涵洞,城市景观中的桥梁易于被运输的碎片阻挡,这通常会导致闪蒸洪水。在澳大利亚的背景下,卧龙岗市议会WCC阻止导管政策是唯一需要在设计过程中堵塞的正式指导方针。但是,许多人认为这一政策是基于普通洪水的视觉检查,因此不能被认为是液压阻塞的准确表示。由于这争议,视觉堵塞和液压堵塞被认为是两个不同的术语,而且两者之间没有建立的可量化关系。本文试图通过提出在给定涵洞的液压堵塞预测液压阻塞的深度视觉特征来改变两种术语。将终端机器学习管道的结束占据了涵洞作为输入的图像,使用深度学习模型提取视觉特征,预先处理视觉特征并进入回归模型以预测相应的液压堵塞。 DataSet I.e.,水文实验室数据集HD,在本研究中使用的Visual Hydology Lab数据集VHD从使用尺度复制的涵洞的尺度的物理模型进行的实验室实验中收集了该研究的实验室实验。使用标准评估度量评估回归模型的性能。此外,根据模型和硬件需求分析的相对比较,评估整体机器学习管道的性能。从MobileNet中使用的结果,提取的视觉特征实现了最佳回归性能,R 2得分为0.7855。 R 2得分的正值表明了视觉特征与液压阻塞之间的相关性,并建议两者都可以相互相互关联。

Automating Visual Blockage Classification of Culverts with Deep Learning
Authors Umair Iqbal, Johan Barthelemy, Wanqing Li, Pascal Perez
通过运输的碎片材料堵塞涵洞作为主要贡献者源于城市闪现洪水。传统的建模方法在很大程度上没有成功地解决了问题,因为峰值洪水液压数据和抑制碎片的高度线性行为的不可用。本文探讨了一个新的维度来调查问题,提议使用智能视频分析IVA算法来提取堵塞相关信息。使用现有卷积神经网络CNN算法IE,DAMIDNET53,DENSENET121,InceptionResNetv2,Inceptionv3,MobileNet,Reset50,VGG16,WefferenceNetB3,NASNet进行研究,IE,涵洞开放的图像和阻塞ICOB以预测阻塞给定的图像。基于对测试数据集的性能进行评估模型,即,准确性,丢失,精度,召回,F1分数,Jaccard索引,每秒拖出的浮点操作以及响应时间来处理单个测试实例。从结果中,NASNET在分类堵塞时最有效地分类为85的准确性,但是,建议为硬件实现而建议有效,因为其具有与NASNet I.E.,83相当的准确性的改进的响应时间。假阴性FN实例,假阳性FP实例和CNN层激活表明,背景噪声和超薄标记标准是现有CNN算法的降低性能的两个贡献因素。

NeRD: Neural 3D Reflection Symmetry Detector
Authors Yichao Zhou, Shichen Liu, Yi Ma
最近的进展表明,对称性,在大多数物体展览之前的结构,可以支持各种单视图3D理解任务。然而,检测来自图像的3D对称仍然是一个具有挑战性的任务。以前的作品假设给出了对称性或通过基于启发式方法检测对称性的。在本文中,我们呈现Nerd,一种神经3D反射对称检测器,其结合了基于学习的识别和基于几何重建的强度,以精确地恢复物体镜面平面的法线方向。具体地,我们首先用粗略策略枚举对称平面,然后通过建立3D成本卷来查找最佳的策略,以检查与对称性的图像内图像像素对应关系。我们的实验表明,通过在合成和现实世界数据集中的直接CNN回归的平面,通过我们的方法检测到的对称平面明显更准确。我们还证明,检测到的对称性可用于改善下游任务的性能,例如姿势估计和深度映射回归。本文的代码已公开

A^2-FPN: Attention Aggregation based Feature Pyramid Network for Instance Segmentation
Authors Miao Hu, Yali Li, Lu Fang, Shengjin Wang
学习金字塔特征表示对于识别不同尺度的对象实例至关重要。特征金字塔网络FPN是经典的架构,用于构建具有高级语义的特征金字塔。然而,特征提取和融合中的内在缺陷抑制FPN进一步聚集更多辨别特征。在这项工作中,我们提出了关注的基于聚合的特征金字塔网络A 2 FPN,通过注意引导特征聚合来改善多尺度特征学习。在特征提取中,它通过收集分布多级全局上下文特征来提取识别特征,并降低由于速度较小的通道引起的语义信息丢失。在特征融合中,它聚合来自相邻功能的互补信息,以生成用于内容感知采样的位置明智的重新组装内核,并采用频道明智重新重量来增强元素明智添加之前的语义一致性。 2 FPN显示不同实例分段框架的一致增益。通过将FPN用2 FPN替换为Mask R CNN,当使用Reset 50和Reset 101作为骨干时,我们的模型将在2.1和1.6掩模AP中提高了表现。此外,在集成到诸如级联掩模R CNN和混合任务级联等强基线时,2 FPN实现了2.0和1.4掩模AP的改进。

Autoencoder Based Inter-Vehicle Generalization for In-Cabin Occupant Classification
Authors Steve Dias Da Cruz, Bertram Taetz, Oliver Wasenm ller, Thomas Stifter, Didier Stricker
常见域移位问题配方考虑在培训期间的多个源域或目标域的集成。关于不同汽车内饰之间的机器学习模型的概括,我们制定单个车辆中训练的标准,无需访问车辆的目标分布,该模型将在训练期间可以访问多辆车辆。我们对后台替补的乘员分类进行了对SVIRO数据集的调查,并提出了一种基于自动化的方法来提高可转移性。当从头开始培训时,AutoEncoder符合常用的分类模型,有时突出执行预先培训的模型在大量数据上。此外,AutoEncoder可以将来自未知车辆的图像转换为培训的车辆。这些结果通过来自两个车辆内部的真实红外图像的评估来证实。

Adv-Makeup: A New Imperceptible and Transferable Attack on Face Recognition
Authors Bangjie Yin, Wenxuan Wang, Taiping Yao, Junfeng Guo, Zelun Kong, Shouhong Ding, Jilin Li, Cong Liu
已经显示出深度神经网络,特别是面部识别模型,易受数字和物理对抗的例子。然而,针对面部识别系统的现有的对抗例缺乏对黑匣子模型的可转移性,或者无法在实践中实施。在本文中,我们提出了一个统一的对抗性面部生成方法ADV化妆,这可以在黑匣子环境下实现难以置信和可转移的攻击。 ADV化妆开发了一个任务驱动的化妆方法,其中混合模块将难以察觉的眼影合成在脸上的轨道区域。为了实现可转移性,Adv化妆实现了一个细粒度的Meta学习对抗攻击战略,以了解各种型号的更多普遍攻击功能。与现有技术相比,足够的可视化结果表明,ADV化妆能够在数字和物理方案下产生更不可察觉的攻击。同时,广泛的定量实验表明,ADV化妆可以显着提高黑匣子环境下的攻击成功率,甚至攻击商业系统。

More Separable and Easier to Segment: A Cluster Alignment Method for Cross-Domain Semantic Segmentation
Authors Shuang Wang, Dong Zhao, Yi Li, Chi Zhang, Yuwei Guo, Qi Zang, Biao Hou, Licheng Jiao
域之间的特征对齐是无监督域适应UDA语义分段的主流方法之一。对于语义分割的现有特征对齐方法通过对抗训练来学习域不变特征以减少域差异,但它们具有两个限制1,像素之间的一个关联,2在源域上训练的分类器可能很好地适应目标。在本文中,我们提出了一种基于领域亲密假设的新的UDA语义分割方法,以减轻上述问题。具体地,将原型聚类策略应用于具有相同语义的集群像素,这将在特征对准期间更好地维护目标域像素之间的关联。在聚类之后,为了使分类器更自适应,利用基于目标域的亲和性曲线图的归一化切割损耗,这将使特定于决策边界目标。在GTA5 Rightarrow Citycapes和Synthia Rightarow Citycapes上进行了足够的实验证明了我们方法的有效性,这表明我们的结果实现了最新的现有技术。

A State-of-the-art Survey of Object Detection Techniques in Microorganism Image Analysis: from Traditional Image Processing and Classical Machine Learning to Current Deep Convolutional Neural Networks and Potential Visual Transformers
Authors Chen Li, Pingli Ma, Md Mamunur Rahaman, Yudong Yao, Jiawei Zhang, Shuojia Zou, Xin Zhao, Marcin Grzegorzek
微生物在人类生命中发挥着至关重要的作用。因此,微生物检测对人类具有重要意义。然而,传统的手动微观检测方法具有长检测周期的缺点,较低的检测精度低,检测罕见的微生物很大。因此,将计算机图像分析技术应用于微生物检测领域是有意义的。计算机图像分析可以实现高精度和高效率检测微生物。在本综述中,首先,我们以时间顺序分析现有的微生物检测方法,从传统的图像处理和传统机器学习到深度学习方法。然后,我们分析和总结这些现有方法并引入一些潜在的方法,包括可视变压器。最后,讨论了微生物检测的未来发展方向和挑战。一般来说,我们总结了1985年的137个相关的技术文件至现在。该审查将帮助研究人员更全面地了解微生物检测领域的开发过程,研究现状和未来趋势,并为其他领域的研究人员提供参考。

An Intelligent Passive Food Intake Assessment System with Egocentric Cameras
Authors Frank Po Wen Lo, Modou L Jobarteh, Yingnan Sun, Jianing Qiu, Shuo Jiang, Gary Frost, Benny Lo
营养不良是低收入和中等收入国家的主要公共卫生问题。了解社区,家庭和个人的食物和营养摄入量对卫生政策和干预措施的发展至关重要。为了简化开展大规模膳食评估的程序,我们建议通过在加纳和乌干达的家庭专用的自我监视摄像机实现智能被动食品摄入评估系统。首先设计算法以删除冗余图像以最小化存储存储器。在运行时,基于深度学习的语义分割应用于识别多种食物类型,并提取新设计的手工特征以进一步消耗的食物重量监测。进行综合实验,以验证我们在捕获的网站集中捕获的网站集的方法,这些设置与加纳和肯尼亚原产地区的参与者进行了普通的加纳肯尼亚菜肴的独特LMIC条件。为了展示效力,经验丰富的营养师参与该研究以进行视觉部分大小估计,并且将其预测与我们所提出的方法进行比较。有希望的结果表明,我们的方法能够可靠地监测食物摄入,并对用户进食行为提供反馈,为常规饮食评估提供营养师的指导。

Probabilistic Ranking-Aware Ensembles for Enhanced Object Detections
Authors Mingyuan Mao, Baochang Zhang, David Doermann, Jie Guo, Shumin Han, Yuan Feng, Xiaodi Wang, Errui Ding
模型集合成为改善为单个检测器已经优化的对象检测性能的最有效的方法之一。常规方法直接熔断边界盒,但通常无法考虑在组合探测器时的提案质量。这导致了对探测器合并的置信性的新问题。信心对单次探测器影响不大,但显着影响探测器集合。为了解决这个问题,我们提出了一个名为概率排名的新颖的合奏,称为探测器的束缚箱的置信度。通过同时考虑同一验证集上的类别和位置,我们基于统计概率获得更可靠的置信度。然后,我们可以对检测到的绑定框进行排序组装。我们还介绍了一种强盗方法来解决所造成的置信不平衡问题,以处理不同置信水平的不同数量的盒子。我们使用基于PRAE的非最大抑制P nms来替换集合学习中的传统NMS方法。 Pascal VOC和Coco2017数据集上的实验表明,我们的PRAE方法通过显着的边缘来始终如一地优于现有技术的状态。

Interpretable Social Anchors for Human Trajectory Forecasting in Crowds
Authors Parth Kothari, Brian Sifringer, Alexandre Alahi
人类轨迹预测在人群中,其核心是一个序列预测问题,具有捕获序列依赖性社交交互的具体挑战,从而预测社会兼容的多峰分布。近年来,已显示基于神经网络的方法对基于距离的指标来说倾斜的手工制作方法。然而,这些数据驱动方法仍然遭受一个至关重要的限制缺乏可解释性。为了克服这种限制,我们利用离散选择模型的力量来学习基于可解释的规则的意图,随后利用神经网络的表现性来模拟场景特定的残差。互动中心基准Trajnet的广泛实验展示了我们所提出的架构的有效性,以解释其预测而不会影响精度。

Neural 3D Scene Compression via Model Compression
Authors Berivan Isik
渲染3D场景需要访问场景的任意视点。这种3D场景的存储可以以两种方式完成1存储从3D场景拍摄的2D图像,该图像可以通过插值重建场景,或者2存储已经从所有方向编码视图的3D场景本身的表示。到目前为止,传统的3D压缩方法专注于第一类存储,并通过图像压缩技术压缩原始的2D图像。利用这种方法,用户首先对存储的2D图像进行解码,然后呈现3D场景。然而,由于必须存储大量的2D图像,因此该分离的过程效率低下。在这项工作中,我们采取了不同的方法并压缩了3D场景的功能表示。特别是,我们介绍一种方法来通过压缩代表场景的神经网络来压缩3D场景作为神经辐射场。我们的方法提供了3D场景的更有效存储,因为当我们从神经功能表示时,它不会存储冗余的2D图像。

Contrastive Learning for Unsupervised Image-to-Image Translation
Authors Hanbit Lee, Jinseok Seol, Sang goo Lee
图像到图像翻译的旨在学习不同群体的视觉可区分图像之间的映射。虽然最近的方法表明了令人印象深刻的改变图像的复杂外观的能力,但它们仍然依赖于培训模型来区分不同的视觉特征。这种对标签的这种依赖性通常会显着限制应用范围,因为一致和高质量的标签昂贵。相反,我们希望捕获图像本身的视觉功能,并应用它们以实现现实翻译,而不会生成的标签。为此,我们向基于对比学习的图像翻译方法提出了一个无监督的图像。关键的想法是学习一个区分的鉴别者,这些判别者区分了独特风格,让鉴别者监督发电机以在图像上传输这些样式。在培训期间,我们随机地样本一对图像并训练发电机,以在保持原始结构的同时将一个朝向另一个图像的外观。实验结果表明,我们的方法在视觉质量和翻译准确性方面优于领先的无监督基线。

Probabilistic Visual Place Recognition for Hierarchical Localization
Authors Ming Xu, Niko S nderhauf, Michael Milford
视觉本地化技术通常包括分层定位流水线,其视觉放置识别模块用作粗定定型器以初始化姿势细化阶段。虽然提高了姿势细化步骤一直是最近研究的重点,但大多数在粗糙定位阶段的工作都集中在改进等于外观变化的不变性,而不会改善可能松动的误差容差。在这封信中,我们提出了两种方法,该方法适应用于视觉地位识别的图像检索技术,以识别贝叶斯状态估计用于本地化。我们用途证明了利用我们的方法对粗糙定位阶段的定位精度进行了显着改进,而在严重的外观变化下保持最先进的技术性能。在牛津机器人数据集上使用广泛的实验,结果表明,我们的方法在精确召回了本地化图像序列的精确召回性能方面优于现有技术的相当状态。此外,我们提出的方法提供了对上下文规模定位延迟的灵活性,以实现这些改进。改进的初始本地化估计估计开辟了改进的整体定位性能和改进的姿势细化技术的可能性,这些技术利用了这种改进的空间。

Human Object Interaction Detection using Two-Direction Spatial Enhancement and Exclusive Object Prior
Authors Lu Liu, Robby T. Tan
人体对象交互Hoi检测旨在检测人体和物体之间的视觉关系。 Hoi检测的一个重大问题是非交互式人体对象对可以容易地分组并被错误分类为动作,尤其是当人类靠近并在场景中执行类似的动作时。为了解决MIS分组问题,我们提出了一种空间增强方法,以在人体部位到物体中心的两个方向上强制实施细水位空间约束,以及从物体部门到人类中心的物体部分。在推理时,我们提出了一种通过考虑动作的对象专用属性来提出人类对象重新组合方法,其中目标对象不应由多于一个人共享。通过抑制非交互式对,我们的方法可以降低误报。 V Coco和HiCO DEC数据集的实验证明了我们的方法与现有的现有方法在现场存在的存在下的现有方法比较更加强大。

Toward Interactive Modulation for Photo-Realistic Image Restoration
Authors Haoming Cai, Jingwen He, Qiao Yu, Chao Dong
调制图像恢复水平旨在通过改变表示恢复强度的因子来生成恢复的图像。以前的作品主要集中在优化平均平方重建误差,这带来了高重建精度,但缺乏更精细的纹理细节。本文介绍了一个可控的UNET生成的敌对网络Cugan,用于在调制任务中产生高频纹理。 CUGAN由两个模块基础网络和条件网络组成。基础网络包括发电机和鉴别器。在发电机中,我们通过在UNET架构中调整不同尺度的不同特征的权重来实现恢复水平的交互式控制。此外,我们根据降解的严重程度自适应地调制鉴别器中的中间特征。条件网络接受条件向量编码的劣化信息作为输入,然后为发电机和鉴别器生成调制参数。在测试期间,用户可以通过调整条件向量来控制输出效果。我们还通过简单的转换方法提供GaN和MSE效果之间的平滑过渡。广泛的实验表明,拟议的CUGAN在图像恢复调制任务上实现了出色的性能。

Self-paced Resistance Learning against Overfitting on Noisy Labels
Authors Xiaoshuang Shi, Zhenhua Guo, Fuyong Xing, Yun Liang, Xiaofeng Zhu
由正确和损坏的标签组成的嘈杂标签在实践中是普遍存在的。它们可能会显着恶化卷积神经网络CNN的性能,因为CNNS在损坏的标签上很容易被接收。为了解决这个问题,受到观察的启发,深度神经网络可能首先记住可能是正确的标签数据,然后是腐败的标签样本,我们提出了一种新颖但简单的自定位阻力框架来抵抗损坏的标签,而无需使用任何清洁验证数据。拟议的框架首先利用CNN的记忆效果来学习课程,其中包含自信的样本,并为其他培训样本提供有意义的监督。然后,它采用所选的自信样本和提出的电阻损失来更新模型参数,电阻损耗倾向于平滑模型参数更新或对每个类进行等效预测,从而抵制损坏的标签上的模型过度拟合。最后,我们将这两个模块统一到单个损失函数并在替代学习中优化它。广泛的实验表明,在嘈杂的标签数据上最近的最新技术框架的显着优异的性能。可以使用所提出的方法的源代码

Few-Shot Learning for Image Classification of Common Flora
Authors Joshua Ball
在几个拍摄图像分类的任务中使用Meta学习和转移学习是一个良好的研究区域,许多论文展示了在数据丰富的情况下展示了在Meta学习的转移学习的优势,并且对计算资源没有重大限制。在本文中,我们将展示我们的实验结果,从测试各种艺术状态的传输学习权重和架构相对于图像分类的Meta学习领域的类似状态,利用模型不可知的元学习MAML。我们的结果表明,两种实践都提供了足够的性能,当数据集足够大时,它们也在引入数据稀疏性以保持足够性能时挣扎。使用图像增强和超公共表的微调,适度减少了这个问题。在本文中,我们将讨论1我们开发强大的多级卷积神经网络CNN的过程,用于几个拍摄图像分类的任务,2表明转移学习是当数据集大而且时,转移学习是帮助创建图像分类模型的优越方法3在数据非常有限的情况下,MAML优于转移学习。该代码可在此处提供

Salient Objects in Clutter
Authors Deng Ping Fan, Jing Zhang, Gang Xu, Ming Ming Cheng, Ling Shao
本文识别并解决了现有突出对象检测SOD数据集的严重设计偏差,这使得每个图像应至少包含一个清晰且整洁的突出物体。当在现有数据集上评估时,这种设计偏差导致了ART SOD模型状态的性能饱和度。然而,当应用于现实世界场景时,这些模型仍然远非令人满意。根据我们的分析,我们提出了一个新的高质量数据集并更新先前的显着基准。具体来说,我们的数据集是Clutter SoC中的突出对象,包括来自几个常见对象类别的突出和非突出对象的图像。除了对象类别注释之外,每个突出图像还伴随着反映现实世界场景中共同挑战的属性,这有助于深入了解SOD问题。此外,通过给定的显着性编码器,例如骨干网络,现有的显着模型被设计为实现从训练图像设置到训练地面真理集的映射。因此,我们争辩说,改进数据集可以产生比仅在解码器设计上关注更高的性能提升。考虑到这一点,我们调查了几个数据集增强策略,包括标签平滑,以隐式强调突出边界,随机图像增强,以适应各种场景,以及自我监督的学习作为从小数据集学习的正规化策略。我们的广泛结果表明了这些技巧的有效性。我们还为SOD提供了全面的基准,可以在我们的存储库中找到

Faster and Simpler Siamese Network for Single Object Tracking
Authors Shaokui Jiang, Baile Xu, Jian Zhao, Furao Shen
单个对象跟踪SOT目前是计算机视觉中最重要的任务之一。随着深度网络的开发和一系列大型数据集的单一对象跟踪,已经提出了比大多数传统方法更好的暹罗网络。然而,最近的暹罗网络变得更深入,更慢,以获得更好的性能。这些方法中的大多数只能满足理想环境中实时对象跟踪的需求。为了在效率和准确性之间实现更好的平衡,我们提出了一种更简单的暹罗网络,用于单一对象跟踪,这在较差的硬件配置中运行快,同时仍然是优异的精度。我们使用更有效的回归方法来计算跟踪对象在较短的时间内的位置,而不会减少大量精度。为了提高准确性和加速培训进度,我们将挤压和激励SE网络引入特征提取器。在本文中,我们将提出的方法与某些艺术跟踪器的拟议方法进行比较并分析他们的性能。使用我们的方法,可以在更短的时间和更少的数据训练中培训暹罗网络。快速处理速度使得能够将对象跟踪与对象检测或其他任务实时组合。

Adaptive Domain-Specific Normalization for Generalizable Person Re-Identification
Authors Jiawei Liu, Zhipeng Huang, Kecheng Zheng, Dong Liu, Xiaoyan Sun, Zheng Jun Zha
虽然现有人RE识别RE ID方法表现出令人印象深刻的准确性,但大多数通常患上看不见的目标领域的普遍性差。因此,概括的人red最近越来越多地引起了越来越长的关注,它在没有模型更新的情况下授予在不合格的目标域上概括的源域的模型。在这项工作中,我们提出了一种新的自适应域特定统治方法,可呈现概括的人重新识别。它将未经证实的目标域描述为已知源域的组合,并明确学习具有目标分布的域特定表示,以通过元学习管道提高模型的概率。具体地,ADSnorm利用批量归一化层来收集各个源极域特性,并通过使用这些特征将源极域映射到共享的潜在空间中,其中通过不同域特定归一化统计和特征的距离函数来测量域相关性。在测试阶段,ADSnorm将从未知目标域的图像投影到相同的潜空间中,并自适应地集成携带源分布的域特定特征通过域相关性,以学习在未经证明的目标域上的更广泛的聚合表示。考虑到训练期间目标域不可用,提出了一种与定制关系损耗结合的元学习算法,以优化有效且有效的集合模型。广泛的实验表明,Adsnorm优于现有技术的状态。代码可用

Efficient Masked Face Recognition Method during the COVID-19 Pandemic
Authors Walid Hariri
Coronavirus疾病Covid 19是一种无与伦比的危机,导致大量伤亡和安全问题。为了减少冠状病毒的蔓延,人们经常戴口罩以保护自己。这使得面部识别是一个非常艰巨的任务,因为面部的某些部分是隐藏的。研究人员在正在进行的冠状病毒大流行期间的主要焦点是通过快速和高效的解决方案提出来处理这个问题的建议。在本文中,我们提出了一种基于遮挡去除和基于深度学习的特征的可靠方法,以解决掩蔽面部识别过程的问题。第一步是去除掩模面部区域。接下来,我们将三个预训练的深卷积神经网络CNN CNN即VGG 16,AlexNet和Reset 50,并使用它们从所获得的区域中提取深度特征,主要是眼睛和前额头区域。然后将特征范例的袋子应用于最后卷积层的特征图,以便量化它们并获得与完全连接的经典CNN层的略微表示。最后,施加多层Perceptron MLP用于分类过程。与其他最新方法相比,现实世界蒙面面部数据集的实验结果显示了高识别性能。

BasisNet: Two-stage Model Synthesis for Efficient Inference
Authors Mingda Zhang, Chun Te Chu, Andrey Zhmoginov, Andrew Howard, Brendan Jou, Yukun Zhu, Li Zhang, Rebecca Hwa, Adriana Kovashka
在这项工作中,我们呈现基本网络,该基准将最近的进步与简单的新形式以高效的神经网络架构,条件计算和早期终止相结合。我们的方法包括轻量级模型,以预览输入并生成输入相关组合系数,后来控制更准确的专业模型的合成以进行最终预测。两个阶段模型综合策略可以应用于任何网络架构,并且两个阶段都是共同训练的。我们还表明,适当的训练配方对于提高这种高容量神经网络的普遍性至关重要。在ImageNet分类基准中,我们的MobileNets作为骨干的基础,在几个强大的基线上脱离了精度效率折衷的明显优势。具体而言,BasiTnet MobileNetv3获得80.3前1个精度,只有290米的乘量增加操作,在不牺牲准确度的情况下减半先前现有技术的计算成本。随着早期终止,平均成本可以进一步减少到198米的Madds,同时在想象中保持80.0的准确性。

LASR: Learning Articulated Shape Reconstruction from a Monocular Video
Authors Gengshan Yang, Deqing Sun, Varun Jampani, Daniel Vlasic, Forrester Cole, Huiwen Chang, Deva Ramanan, William T. Freeman, Ce Liu
在视频或图像集合中,在刚性结构的三维重建方面取得了显着进展。然而,由于其在约束性质下,从RGB输入重建非身份结构仍然具有挑战性。虽然基于模板的方法如参数形状模型,但在建模已知的对象类别的封闭世界方面取得了巨大成功,但他们无法处理新的新型对象类别或异常形状的开放世界。在这项工作中,我们介绍了一种从单个视频学习3D形状的模板。它采用综合策略分析,即转发呈现对象轮廓,光流量和像素值以与视频观察进行比较,从而为调整相机,形状和运动参数来进行梯度。不使用特定的形状模板,我们的方法忠实地重建来自人类,动物和物体的视频的非重力3D结构。代码将可用

This Looks Like That... Does it? Shortcomings of Latent Space Prototype Explainability in Deep Networks
Authors Adrian Hoffmann, Claudio Fanconi, Rahul Rade, Jonas Kohler
通过建筑设计产生人类可解释决策的深度神经网络已经成为对传统黑匣子型号的HOC解释的越来越受欢迎的替代品。在这些网络中,可以说的最普遍的方法是所谓的原型学习,其中学习的潜在原型的相似之处是分类了看不见的数据点的基础。在这项工作中,我们指出了这种方法的重要缺点。即,在输入空间中的潜在空间和相似性之间存在语义差距,这可能破坏解释性。我们设计了两个实验,举例说明了所谓的Protopnet上的这个问题。具体而言,我们发现该网络的可解释机制可以通过故意制作或甚至JPEG压缩伪影来误入歧途,这可能产生不可理解的决策。我们争辩说,在实践中部署基于原型的模型时,我们应该考虑到这种缺点。

Image Embedding and Model Ensembling for Automated Chest X-Ray Interpretation
Authors Edoardo Giacomello, Pier Luca Lanzi, Daniele Loiacono, Luca Nassano
胸部X射线CXR可能是全球最常进行的放射性调查。在这项工作中,我们展示并研究了多种机器学习方法来开发自动化CXR诊断模型。特别是,我们在Chexpert DataSet上训练了几个卷积神经网络CNN,这是一个超过200k CXR标记图像的大量集合。然后,我们使用训练的CNN来计算CXR图像的嵌入物,以便从它们中培训两组基于树的分类器。最后,我们描述了三个合并策略,将培训的分类器组合在一起。我们在这项工作中的目标不是期望一些表现明智的福利,而不是预计这项工作的目标是表明上述两种方法,即图像嵌入和模型的提取,可以有效和可行,以解决需要医学成像理解的任务。我们的结果是令人鼓舞和值得进一步调查。

Object detection for crabs in top-view seabed imagery
Authors Vlad Velici, Adam Pr gel Bennett
本报告介绍了对象检测在不同种类螃蟹的水下图像数据库中的应用,以及海狮的空中图像,最后是Pascal VOC数据集。该模型是基于卷积网络基础的终端对象检测神经网络的端,长短短期存储器检测器。

Attention-augmented Spatio-Temporal Segmentation for Land Cover Mapping
Authors Rahul Ghosh, Praveen Ravirathinam, Xiaowei Jia, Chenxi Lin, Zhenong Jin, Vipin Kumar
大地观察卫星数据的可用性为土地使用和陆地覆盖映射提供了巨大的机会。然而,由于各种陆地覆盖类,嘈杂数据以及缺乏适当的标签,这种映射工作是挑战。此外,每个陆地覆盖类通常具有自己独特的时间模式,并且可以在某些时期内识别。在本文中,我们介绍了一种新颖的架构,该架构与双向LSTM和关注机制结合了unet结构,以共同利用卫星数据的空间和时间性,并更好地识别每个陆地覆盖的独特时间图案。我们评估了这种映射世界多个地区作物的方法。我们将我们的方法与其他技术的方法进行了定量和定性地在涉及多个陆地覆盖类的两个真实世界数据集上。我们还可视化注意力,以研究其在减轻噪声和识别判别时间段的有效性。

UVStyle-Net: Unsupervised Few-shot Learning of 3D Style Similarity Measure for B-Reps
Authors Peter Meltzer, Hooman Shayani, Amir Khasahmadi, Pradeep Kumar Jayaraman, Aditya Sanghi, Joseph Lambourne
边界表示B代表是3D计算机辅助设计制造CAD CAM和工业设计的行业标准,因为他们的忠诚代表了风格细节。然而,他们在3D风格研究中被忽略了。现有的3D样式度量通常在网格或PointClouds上操作,并且通过采用固定的风格定义,无法通过人群采购为风格标签或手工制作功能来占最终用户主体性。我们提出了UVStyle Net,B Reps的风格相似度测量,它利用了预先训练的无监督3D编码器中的激活的二阶统计中的风格信号,并通过少量学习来学习其对主观最终用户的相对重要性。我们的方法与所有现有数据驱动的3D样式方法不同,因为它可以在完全无监督的设置中使用,这对于缺乏可公开可用的B Rep数据集来说是可观的。更重要的是,少数拍摄学习占与风格相关的固有主体性。我们可以定量地显示,我们的建议方法能够比网格和PointCloud上的替代方法捕获更强的风格信号,尽管其计算效率明显。我们还表明它能够相对于输入形状生成有意义的风格梯度,并且只有少数由最终用户选择的两个正示例很少的镜头学习就足以显着提高样式测量。最后,我们展示了对CAD模型的大型未标记公共数据集的功效。源代码和数据将来将在未来发布。

A Deep Transfer Learning-based Edge Computing Method for Home Health Monitoring
Authors Abu Sufian, Changsheng You, Mianxiong Dong
医疗保健在大流行或疫情情况下得到了巨大的压力。一些疾病,如Covid 19,导致大流行是从被感染者到别人的高度遍现。因此,为非危急感染患者提供孤立的非关键感染患者的健康服务应有助于减轻这种压力。此外,这种做法也非常有用,无法监测住在家里的长老的健康相关活动。家庭健康监测,使用视觉传感器在家里的患者或长老的持续监测是家庭健康服务的一个如此非侵入性的子区域。在本文中,我们提出了一种基于转移学习的家庭健康监测的边缘计算方法。具体地,预训练的卷积神经网络的模型可以利用具有少量地面的边缘设备标记数据和微调方法来训练模型。因此,在由RGB,深度或热传感器捕获的视觉数据的现场计算中可以以实惠的方式可以实现。结果,由这些类型的传感器捕获的原始数据不需要在家外部发送。因此,隐私,安全和带宽稀缺不应该是问题。此外,应以经济的方式进行上述目的的实时计算。

A review on physical and data-driven based nowcasting methods using sky images
Authors Ekanki Sharma, Wilfried Elmenreich
在所有可再生能源资源RES中,太阳能是最受欢迎的能源形式,并且特别符合其广泛集成到电网。然而,由于太阳能间歇性的性质,预测太阳能辐照度是最重要的,以确保不间断和可靠的电源以满足能源需求。有几种方法来执行太阳辐照度预测,例如基于卫星的方法,基于天空图像的方法,基于机器学习的方法和基于数字天气预报的方法。在本文中,我们在使用天空图像时显示关于短期内的时间内日期太阳能预测技术的审查。除此之外,我们还报告并讨论了天空图像特征对于现在传播的方法很重要。

Morphological classification of astronomical images with limited labelling
Authors Andrey Soroka 1 , Alex Meshcheryakov 2 , Sergey Gerasimov 1 1 Faculty of Computational Mathematics and Cybernetics Lomonosov Moscow State University, 2 Space Research Institute of RAS
形态学分类的任务对于简单的参数化是复杂的,但对于Galaxy Evolution领域的研究很重要。未来Galaxy调查例如欧几里德将收集约10 9个星系的数据。为了获得形态学信息,需要涉及人们标记银河图像,这需要大量的金钱或大量的志愿者。我们提出了一种基于对抗AutoEncoder AAE模型的积极学习的Galaxy形态分类任务的有效半监督方法。对于二进制分类问题Galaxy动物园的顶级问题2决策树我们在测试部件上实现了精度93.1,只有0.86百万的标记动作,该模型可以轻松扩展到任意数量的图像上。我们具有额外标记的最佳型号实现了95.5的精度。据我们所知,这是AAE AEMI监督用于天文学的学习模式。

VID-WIN: Fast Video Event Matching with Query-Aware Windowing at the Edge for the Internet of Multimedia Things
Authors Piyush Yadav, Dhaval Salwala, Edward Curry
有效的视频处理是许多IOMT应用程序中的关键组件,以检测感兴趣的事件。目前,已经在事件处理中提出了许多窗口优化技术,其潜在的假设是传入流具有结构化数据模型。由于缺乏任何潜在的结构化数据模型,视频是高度复杂的。视频流源(如CCTV摄像机和智能手机)是资源受限的边缘节点。同时,视频内容提取价格昂贵,需要计算最密集的深度神经网络DNN模型,主要部署在高端或云节点。本文介绍了VID Win,一种自适应的2级联盟窗口方法,可以在边缘云范围中加速视频事件分析。 VID Win在边缘和云节点上并行运行,并对基于状态的复杂事件匹配执行查询和资源感知优化。 VID Win利用视频内容和DNN输入旋钮,以加速节点的视频推断过程。本文提出了一种新颖的内容驱动微批量调整,资源受限边缘节点下的视频帧的QueryAWARE缓存和微批处理的实用滤波策略,以提高整体系统吞吐量,延迟和网络使用情况。在五个真实世界数据集中进行了广泛的评估。实验结果表明,VID Win Video Event匹配达到了2.3倍的吞吐量,与其他基线相比,与其他基线相比,延迟和99带宽减少,同时保持查询级别精度和资源界限。

Reconstruction of Convex Polytope Compositions from 3D Point-clouds
Authors Markus Friedrich, Pierre Alain Fayolle
重建凸多晶体的组合联盟,完美地拟合相应的输入点云是一种逆向工程和刚体动态模拟中有趣应用的艰难优化问题。我们提出了一个流水线,首先提取一组平面,然后将输入点云分区为弱凸簇,最后产生一组凸多台作为每个分区的装配平面的交叉点。通过拟合平面组配制成最佳配件凸多晶体作为组合优化问题,并使用进化算法解决。对于凸聚类,我们在基于多个输入数据集的彻底评估中使用两种不同的方法和细节它们的优点和弱点。

Detect caterpillar, grasshopper, aphid and simulation program for neutralizing them by laser
Authors Rakhmatulin Ildar
从害虫中保护作物与任何栽培作物有关。但杀虫剂的现代害虫控制方法对人类带来了许多危险。因此,研究安全有效的害虫防治方法的开发是有前途的。此稿件提出了一种新的害虫控制方法。我们使用神经网络用于害虫检测,并开发出强大的激光装置5W以供中和。在处理具有害虫的图像的稿件方法中,详细描述了最有用的特征。使用以下宠物作为示例性蚜虫,蚱蜢,白菜毛虫,我们分析了各种神经网络模型,并为每个昆虫选择了最佳模型和特性。本文详细描述了开发激光装置的操作原理。我们创建了在具有激光器的设备的坐标和传输数据的视频流计算中搜索了在视频流计算中的程序。

Deep Neural Networks Based Weight Approximation and Computation Reuse for 2-D Image Classification
Authors Mohammed F. Tolba, Huruy Tekle Tesfai, Hani Saleh, Baker Mohammad, Mahmoud Al Qutayri
深度神经网络DNN是计算的和内存密集型,这使得其硬件实现是一个具有挑战性的任务,尤其适用于诸如IOT节点的资源受限设备。为了解决这一挑战,本文介绍了一种通过融合用于图像识别应用的数据重用技术的近似计算来改善DNNS性能的新方法。基于训练阶段期间的线性和二次近似方法近似DNNS权重,然后,用线性二次系数替换所有权重,以便以使用相同的系数来计算不同权重的方式执行推断。这导致重复处理元件PE阵列的权重,这又能够重用DNN子计算计算重用并利用相同的数据重用来减少DNN计算,存储器访问,并提高能效增加培训时间的成本。为图像识别提出了MNIST和CIFAR 10数据集的完全分析,其中LENET 5显示参数数量的减少1211.3倍,精度小于0.9。与静止RS方法的状态相比,所提出的架构保存了54的加法器和乘法器的总数。总的来说,所提出的方法适用于IOT边缘设备,因为它减少了存储器大小要求以及所需的存储器访问的数量。

SkyCam: A Dataset of Sky Images and their Irradiance values
Authors Evangelos Ntavelis, Jan Remund, Philipp Schmid
计算机愿景和深度学习的最新进展使得各种领域和应用中的令人惊讶地实现了令人惊讶的结果。 Skycam数据集的激励是为了使基于图像的深度学习解决方案能够进行短期,精确预测局部的太阳辐射。对于一年的跨度,瑞士三个地形不同地点的三个不同的相机正在每10秒获取天空的图像。捕获具有不同曝光时间的十三个高分辨率图像并用于创建额外的HDR图像。图像与高精度的辐射仪收集的高精度辐照度值配对。

Soft-Attention Improves Skin Cancer Classification Performance
Authors Soumyya Kanti Datta, Mohammad Abuzar Shaikh, Hari Srihari, Mingchen Gao
在临床应用中,神经网络必须集中在并突出显示输入图像的最重要部分。柔软的注意机制使神经网络能够破坏这一目标。本文调查了软关注深度神经结构中的有效性。软关注的核心目标是提高重要特征​​的价值并抑制噪声诱导功能。我们比较VGG,Reset,InceptionresNetv2和DenSenet架构的性能,而无需柔软的注意机制,同时对皮肤病变进行分类。当耦合软注意时,原始网络将基线14达到4.7,同时在HAM10000数据集中实现93.7的精度。此外,与基线28相比,软注意力耦合将灵敏度提高3.8,并在ISIC 2017数据集中实现91.6。代码在Github上公开提供。

LINN: Lifting Inspired Invertible Neural Network for Image Denoising
Authors Jun Jie Huang, Pier Luigi Dragotti
在本文中,我们提出了一种可逆的神经网络,用于由基于变换的去噪框架启发的图像去噪DNInn。所提出的DNInn由称为LINN的可逆性神经网络组成,其架构由小波理论中的提升方案和稀疏驱动的去噪网络的启发,其用于去除来自变换系数的噪声。使用单个软阈值操作或利用学习的迭代收缩阈值网络进行去噪操作。 Linn的前​​向通过完整的表示,更适合去噪。使用LINN的后向通过使用去噪网络的输出来重建去噪图像。仿真结果表明,所提出的DNInn方法实现了与DNCNN方法相当的结果,同时仅需要14个学习参数。

Energy-Based Anomaly Detection and Localization
Authors Ergin Utku Genc, Nilesh Ahuja, Ibrahima J Ndiour, Omesh Tickoo
本简要介绍了初步进展,朝着半监控的视觉异常检测和定位问题的统一能源解决方案。在此设置中,我们只能访问Anomaly免费培训数据,并希望检测和识别在测试数据上任意性质的异常。我们使用基于能量模型EBM的密度估计作为常规分数,该分数可用于区分来自异常图像的正常图像。此外,我们回到了相对于图像传播能量评分的梯度,以便生成梯度映射,该梯度映射提供图像中的异常的像素级空间定位。除了空间定位之外,我们还表明梯度图的简单处理还可以提供匹配或超越通过能量值获得的检测性能的替代常规分数。为了定量验证所提出的方法的性能,我们对MVTEC工业数据集进行实验。虽然仍然初步,但我们的结果非常有前途,并揭示了EBMS同时检测和定位图像中的无法预料的异常的潜力。

NTIRE 2021 Challenge on Perceptual Image Quality Assessment
Authors Jinjin Gu, Haoming Cai, Chao Dong, Jimmy S. Ren, Yu Qiao, Shuhang Gu, Radu Timofte, Manri Cheon, Sungjun Yoon, Byungyeon Kangg Kang, Junwoo Lee, Qing Zhang, Haiyang Guo, Yi Bin, Yuqing Hou, Hengliang Luo, Jingyu Guo, Zirui Wang, Hai Wang, Wenming Yang, Qingyan Bai, Shuwei Shi, Weihao Xia, Mingdeng Cao, Jiahao Wang, Yifan Chen, Yujiu Yang, Yang Li, Tao Zhang, Longtao Feng, Yiting Liao, Junlin Li, William Thong, Jose Costa Pereira, Ales Leonardis, Steven McDonagh, Kele Xu, Lehan Yang, Hengxing Cai, Pengfei Sun, Seyed Mehdi Ayyoubzadeh, Ali Royat, Sid Ahmed Fezza, Dounia Hammou, Wassim Hamidouche, Sewoong Ahn, Gwangjin Yoon, Koki Tsubota, Hiroaki Akutsu, Kiyoharu Aizawa
本文关于NTIRE 2021对感知图像质量评估IQA的挑战,与CVPR 2021中的图像恢复和增强车间NTIRE研讨会的新趋势相结合。作为一种新型的图像处理技术,基于生成的感知图像处理算法对抗网络GAN产生了具有更现实纹理的图像。这些输出图像具有来自传统扭曲的完全不同的特征,因此对IQA方法构成了新的挑战,以评估他们的视觉质量。与以前的IQA挑战相比,这项挑战中的训练和测试数据集包括感知图像处理算法的输出和相应的主观评分。因此,它们可用于开发和评估基于GaN的扭曲的IQA方法。挑战总共有270名注册参与者。在最终测试阶段,13名参与团队提交了他们的模型和事实表。几乎所有这些都取得了比现有的IQA方法更好的结果,而获胜方法可以展示最先进的性能。

Self-Adaptive Transfer Learning for Multicenter Glaucoma Classification in Fundus Retina Images
Authors Yiming Bao, Jun Wang, Tong Li, Linyan Wang, Jianwei Xu, Juan Ye, Dahong Qian
青光眼的早期诊断和筛查对于患者及时接受治疗并保持视力是重要的。如今,基于深度学习的DL模型已成功用于来自视网膜眼底图像的青光眼计算机辅助诊断CAD。然而,使用来自一个医院中心的数据集预先接受的DL模型可能对另一个新医院中心的数据集具有差的性能,因此其在真实场景中的应用是有限的。在本文中,我们提出了一种自适应转移学习SATL策略,以填补多中心数据集之间的域间隙。具体地,预先训练在源域上的DL模型的编码器用于初始化重建模型的编码器。然后,仅使用来自目标域的未标记的图像数据进行重建模型,这使得模型中的编码器适应本身,以便同时为目标域图像编码和青光眼分类提取有用的高电平特征。实验结果表明,拟议的SATL策略在私人和两种公共青光眼诊断数据集之间的域适应任务中是有效的,即PRI RFG,避难和滞后。此外,所提出的策略完全独立于源域数据,符合真实场景应用程序和隐私保护政策。

Structured dataset documentation: a datasheet for CheXpert
Authors Christian Garbin, Pranav Rajpurkar, Jeremy Irvin, Matthew P. Lungren, Oge Marques
每年在全球范围内拍摄数十亿次X射线图像。特别是机器学习,特别是深度学习,表明了有助于帮助放射科学家的分类和诊断图像。但是,深度学习需要具有可靠标签的大型数据集。 Chexpert DataSet是通过董事会认证放射科医师的参与创建的,导致培训深入学习网络所需的强烈基础真理。遵循数据集的数据表的结构化格式,本文扩展了原始的Chexpert纸和其他来源,以显示放射科医生在创建可靠标签中发挥的关键作用,并详细描述了数据集组合的不同方面。这种结构化文件打算提高机器学习和医学社区的认识和巧克力的力量,应用和演化的认识,从而推动了医学图像分析领域。本文的另一个目的是将此数据集数据表作为如何创建数据集的详细和结构化描述的社区的示例。我们相信,数据集的创建过程,内容和应用程序会加速创建有用和可靠的模型。

Recognition of handwritten MNIST digits on low-memory 2 Kb RAM Arduino board using LogNNet reservoir neural network
Authors Y. A. Izotov, A. A. Velichko, A. A. Ivshin, R. E. Novitskiy
呈现的紧凑算法用于识别在LognNet储库神经网络上创建的Mnist数据库的手写数字,达到82的识别精度。该算法在带有2 kB静态RAM低功率微控制器的低存储器Arduino板上进行了测试。研究了对储层中神经元数的图像识别的准确度和时间的依赖性。内存分配演示了算法在RAM中存储所有必要的信息而不使用其他数据存储,并且在没有初步处理的情况下使用原始图像进行操作。具有适当训练的算法的简单结构可以适用于广泛的实际应用,例如,用于创建移动生物传感器,以便早期诊断医学中不良事件。研究结果对于在外围受限的物联网设备和边缘计算的人工智能下实现人工智能很重要。

Understanding Catastrophic Overfitting in Adversarial Training
Authors Peilin Kang, Seyed Mohsen Moosavi Dezfooli
最近,发现FGSM对抗培训能够培训一种坚固的模型,它与PGD训练的稳定模型相当,但峰值速度更快。然而,存在一个名为灾难性的过烧的失败模式,即分类器在训练期间突然失去其鲁棒性,并且几乎没有自行恢复。在本文中,我们发现CO不仅限于FGSM,而且还涉及MBOX DF缺陷1对抗训练。然后,我们分析了FGSM和MBOX DF infty 1的几何属性,并在CO之后发现它们具有完全不同的决策边界。对于FGSM,沿着扰动方向产生新的决策边界,使得小扰动比大的扰动更有效一。虽然对于Mbox DF缺点1,但没有沿着扰动方向产生的新决策边界,而是由Mbox DF infty 1产生的扰动在CO之后变小,因此失去其有效性。我们还通过实验分析了造成CO的潜在因素的三个假设。然后基于实证分析,我们通过不会将扰动恢复到L漂移球来修改RS FGSM。通过这种小修改,我们可以在ε8555555上达到0.37 pgd 50 10达到0.37pgd 50 10准确度,与ε855相比,与Rs FGSM相比,43.57 PM 0.30,也将epsilon的工作范围从8 255-1055延伸到CIFAR10,而没有CO 。

Chinese Abs From Machine Translation

Papers from arxiv.org

更多精彩请移步主页


pic from pexels.com

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值