AI视野·今日CS.CV 计算机视觉论文速览
Thu, 10 Jun 2021
Totally 60 papers
👉上期速览✈更多精彩请移步主页
Daily Computer Vision Papers
Semi-Supervised 3D Hand-Object Poses Estimation with Interactions in Time Authors Shaowei Liu, Hanwen Jiang, Jiarui Xu, Sifei Liu, Xiaolong Wang 估计从单个图像的3D手和对象姿势是一个极具挑战性的问题,手和物体通常在交互过程中自我封闭,并且甚至人类不能完全从单个图像直接标记地面真理的稀缺。为了解决这些挑战,我们提出了一个统一的框架,用于估计具有半监督学习的3D手和对象姿势。我们建立一个联合学习框架,在那里我们通过变压器在手和对象表示之间进行明确的上下文推理。超越在单个图像中的3D注释之外,我们将大规模手对象视频中的空间时间一致性作为在半监督学习中生成伪标签的约束。我们的方法不仅在挑战真实世界数据集中提高了手姿势估计,而且还大大改善了每个实例的地面真理的对象姿势。通过使用大规模多样化视频培训,我们的模型也在域中的多个域数据集中概括。项目页面和代码 |
NeRF in detail: Learning to sample for view synthesis Authors Relja Arandjelovi , Andrew Zisserman 神经辐射场NERF方法表现出令人印象深刻的新颖观点合成性能。核心方法是通过在沿光线采样的点处查询神经网络以获得采样点的密度和颜色来呈现各个光线,并使用渲染方程集成该信息。由于致密采样是计算的,但是常见的解决方案是执行粗糙度至精细采样。 |
We Can Always Catch You: Detecting Adversarial Patched Objects WITH or WITHOUT Signature Authors Bin Liang, Jiachun Li, Jianjun Huang 最近,基于深度学习的对象检测已被证明是易受对抗的补丁攻击攻击。持有一个特制的贴片的攻击者可以从艺术人员探测器,例如yolo,即使在物理世界中也可以隐藏自己。这种攻击可以带来严重的安全威胁,例如从监视摄像机逃脱。在本文中,我们深深探讨了对对象检测的对抗修补程序攻击的检测问题。首先,我们从可视化解释点识别现有的对抗性补丁的杠杆签名。提出了一种快速签名的防御方法,并证明是有效的。其次,我们设计了一种改进的补丁生成算法,以揭示基于签名的方式可以通过未来出现的技术绕过的风险。新生成的对抗性补丁可以成功地逃避基于签名的防御。最后,我们提出了一种基于内部内容语义一致性的新型签名独立检测方法,而不是任何攻击特定的先验知识。基本直觉是对手对象可以在本地出现,但在输入图像中全局消失。实验表明,签名独立方法可以有效地检测现有和改进的攻击。通过在没有任何攻击的现有知识的情况下,它还通过检测不可预见的甚至其他类型的攻击来证明是一种通用方法。两个提出的检测方法可以在不同的场景中采用,我们相信组合它们可以提供全面的保护。 |
Generative Models as a Data Source for Multiview Representation Learning Authors Ali Jahanian, Xavier Puig, Yonglong Tian, Phillip Isola 生成模型现在能够产生高度现实的图像,从培训的数据看起来几乎无法区分。如果我们有足够好的生成模型,这会提出这个问题,我们仍然需要数据集我们在从黑匣子生成模型的学习通用视觉表现中而不是直接从数据的设置中调查这个问题。给出了货架图像发生器而无需任何访问其培训数据,我们从该发生器输出的样本中列出表示。我们使用生成器的潜像来比较可以应用于此设置的几种表示学习方法,以生成相同语义内容的多个视图。我们表明,对于对比方法,这种多视图数据自然可用于识别附近的正面对,在潜在空间中遥远的潜在空间和负对对。我们发现所产生的表示竞争竞争力直接从真实数据中学到的,但良好的性能需要在应用的抽样策略中进行护理和培训方法。生成模型可以被视为数据集的压缩和有组织的副本,我们设想了未来,其中越来越多的型Zoos增殖,而DataSets越来越笨重,丢失或私有。本文介绍了在这种未来处理视觉表现学习的几种技术。代码在我们的项目页面上发布 |
Knowledge distillation: A good teacher is patient and consistent Authors Lucas Beyer, Xiaohua Zhai, Am lie Royer, Larisa Markeeva, Rohan Anil, Alexander Kolesnikov 在大规模模型之间的计算机视觉中存在越来越多的差异,该模型达到了实际应用中实惠的现有性能和模型的状态。在本文中,我们解决了这个问题,并显着弥合了这两种模型之间的差距。在我们的经验调查中,我们并不旨在提出一种新的方法,而是努力确定在实践中经济实惠的艺术大规模模型的稳健和有效的配方。我们证明,当正确执行时,知识蒸馏可以是减少大型模型尺寸而不会影响其性能的强大工具。特别是,我们发现存在某些隐含的设计选择,这可能会大大影响蒸馏的有效性。我们的主要贡献是明确的这些设计选择的识别,这些选择选项以前没有在文献中阐述。我们通过全面的实证研究备份我们的调查结果,展示了广泛的视觉数据集的令人信服的结果,特别是获得了Atorenet的最先进的reset50模型,这实现了82.8前1个精度。 |
Analysis of convolutional neural network image classifiers in a hierarchical max-pooling model with additional local pooling Authors Benjamin Walter 考虑图像分类,介绍了具有额外本地池的分层最大池模型。这里,附加的本地池使得可以将定影型模型组合将具有变量相对距离彼此的图像的部分组合。鉴于它们的收敛速度,引入并比较了各种卷积神经网络图像分类器。通过将它们应用于模拟和实际数据来分析估算的有限样本尺寸性能。 |
An ordinal CNN approach for the assessment of neurological damage in Parkinson's disease patients Authors Javier Barbero G mez, Pedro Antonio Guti rrez, V ctor Manuel Vargas, Juan Antonio Vallejo Casas, C sar Herv s Mart nez 3D图像扫描是帕金森S病PD患者神经损伤的评估工具。这种诊断过程可以自动化,以帮助医务人员通过决策支持系统DSSS,并且卷积神经网络CNN是良好的候选者,因为它们在应用于空间数据时是有效的。本文提出了一种用于评估PD患者水平或神经损伤的3D CNN序数模型。鉴于CNNS需要大型数据集以实现可接受的性能,数据增强方法适于使用空间数据。我们考虑通过最短路径OGO SP方法基于过采样的序数图,该方法应用于帧内数据生成的伽马概率分布。提出了对OGO SP的修改,ogoSPβ算法应用于在帧间区域中产生合成样本的β发布,与伽马相比更好地分布。不同方法的评估是基于由西班牙CRDOBA的医院大学雷纳SOF提供的新型3D图像数据集。我们展示了序数方法如何改善了标称值的性能,以及OgoSPβ如何产生的性能比OGO SP更好。 |
A machine learning pipeline for aiding school identification from child trafficking images Authors Sumit Mukherjee, Tina Sederholm, Anthony C. Roman, Ria Sankar, Sherrie Caltagirone, Juan Lavista Ferres 儿童贩卖世界各地的严重问题。每年有400多万贩卖世界各地的儿童受害者,其中许多用于儿童性剥削的目的。在与英国警察和非营利性的合作中,专注于儿童滥用预防,全球解放网,我们制定了概念机器学习管道的证据,以帮助识别来自截取的图像。在这项工作中,我们专注于包含佩戴校服的儿童的图像来识别起源学校。在没有机器学习管道的情况下,这一巨大耗时和劳动密集型任务由执法人员手动进行。因此,通过自动化学校识别过程的方面,我们希望大大影响本部分儿童识别的速度。我们所提出的管道由两台机器学习模型I构成,识别儿童的图像是否包含校服中的校服,以及衬衫,毛衣,燃料等颜色纹理等不同校服项目的属性的识别。我们描述了数据收集,标签,模型开发和验证过程以及使用模型预测有效地搜索学校的策略。 |
Rethinking Space-Time Networks with Improved Memory Coverage for Efficient Video Object Segmentation Authors Ho Kei Cheng, Yu Wing Tai, Chi Keung Tang 本文介绍了在视频对象分割的背景下建模空间时间对应的简单而有效的方法。与大多数现有方法不同,我们在不重新编码每个对象的掩码功能之间直接建立相应的对应关系,导致高效且强大的框架。利用该对应关系,当前查询帧中的每个节点都是通过以与关联方式汇总到过去的特征来推断出来的。我们将聚合过程作为投票问题,发现现有的内部产品亲和力导致存储器利用较差,内存的小型内存节点的小型存储器节点,无论查询如何。鉴于这种现象,我们建议使用负平方欧几里德距离来计算亲和力。我们经过验证,每个内存节点现在都有机会贡献,并通过实验表明这种多样化的投票有利于内存效率和推理准确性。通信网络和多元化投票的协同作用非常好,在戴维斯和Youtubevos数据集中实现了新的最新状态,同时在没有钟声和口哨的多个物体的20 fps中运行得多。 |
Distilling Image Classifiers in Object Detectors Authors Shuxuan Guo, Jose M. Alvarez, Mathieu Salzmann 知识蒸馏构成通过利用更强大的老师的知识来提高紧凑学生网络的性能简单而有效的方法。尽管如此,知识蒸馏文献仍然仅限于学生和教师解决同一任务的场景。在这里,我们调查不仅在跨架构中传输知识的问题,也可以跨出任务。为此,我们研究了物体检测的情况,而不是按照标准探测器到检测器蒸馏方法,而不是将分类器引入探测器知识转移框架。特别是,我们提出了利用分类师的策略来改善探测器的识别准确性和本地化性能。我们对具有不同骨架的几种探测器的实验证明了我们方法的有效性,使我们能够优于现有技术的状态探测器蒸馏方法。 |
Geometry-Consistent Neural Shape Representation with Implicit Displacement Fields Authors Wang Yifan, Lukas Rahmann, Olga Sorkine Hornung 我们呈现隐式位移字段,一种用于详细的3D几何的新颖表示。受到经典表面变形技术的启发,位移映射,我们的方法表示作为平滑基表面的复杂表面加上沿着基部的正常方向的位移,导致频率的形状分解,其中高频信号由几何限制低频信号。重要的是,由于一定量身定制的建筑设计,这种解剖更加无人驾驶,这些建筑设计通过施工具有先天频率层次结构。我们探索隐式位移场表面重建和细节传输,并展示优异的代表性功率,训练稳定性和概括性。 |
Learning to Rank Words: Optimizing Ranking Metrics for Word Spotting Authors Pau Riba, Adri Molina, Lluis Gomez, Oriol Ramos Terrades, Josep Llad s 在本文中,我们探索并评估基于排名的客观函数来学习单词字符串和单词图像编码器。我们考虑检索框架,其中用户期望根据定义的相关评分排名的检索列表。在单词发现问题的上下文中,已根据Query从查询字符串编辑距离设置相关性分数。我们通过字符串单词斑点来通过实验展示所提出的模型对查询模型的竞争性能。我们还通过示例单词发现提供查询的结果,尽管这不是这项工作的主要重点。 |
PCNet: A Structure Similarity Enhancement Method for Multispectral and Multimodal Image Registration Authors Si Yuan Cao, Hui Liang Shen, Lun Luo, Shu Jie Chen, Chunguang Li 多光谱和多模式图像处理在计算机视觉和计算摄影社区中很重要。由于所获取的多级和多模式数据通常由于图像设备的交替或移动而导致的,因此需要图像登记过程。由于非线性强度和梯度变化,多光谱或多模式图像的登记是具有挑战性的。为了应对这一挑战,我们提出了相等网络PCNet,能够增强结构相似性并减轻非线性强度和梯度变化。然后可以使用网络产生的相似性增强功能对齐图像。 PCNET在先前的相一致性的指导下构建。网络包含三层,根据相中理论,与改进的学习的Gabor内核一起陪同。由于先前的知识,PCNet非常重量轻,可以在相当少量的多光谱数据上培训。 PCNET可以被视为完全卷积的,因此可以取消任意尺寸。曾经接受过培训,PCNET适用于各种多光谱和多模式数据,如RGB NIR,无需额外进一步调谐,无闪光图像。实验结果验证了PCNet优于最新的现有状态的现有状态,包括与PCNet相比具有数百次参数数量的基于深度学习的算法。由于相似性增强培训,PCNet优于原始相变算法,具有三分之二的特征频道。 |
Grounding inductive biases in natural images:invariance stems from variations in data Authors Diane Bouchacourt, Mark Ibrahim, Ari S. Morcos 为了在看不见的看不见并潜在地出现分布样本,希望机器学习模型对影响输入变异因子的变换来具有可预测的响应。不变性通常通过手工工程数据增强实现,但是进行标准数据增强地址转换,该转换说明实际数据的变化,而在事先工作中专注于合成数据,我们在此尝试表征真实数据集,想象成和学习中变异的因素标准残差网络的不变性和最近提出的视觉变压器关于这些因素的变化。我们显示标准增强依赖于转换和规模的精确组合,尽管诸如卷积架构的翻译不变性,但诸如残留网络等近似值的转换不变性,但是译价了大部分性能改进。事实上,我们发现规模和翻译不变性在剩余网络和视觉变压器模型中类似于它们显着不同的归纳偏差。我们展示培训数据本身是主要的不变性的主要来源,并且数据增强只会进一步增加所学到的InorRARCECCE。有趣的是,从培训过程中提出的InorRoughcce与我们发现的ImageNet因子对齐。最后,我们发现想象成的变化的主要因素主要与外观相关,并且是每个班级的特定。 |
More than meets the eye: Self-supervised depth reconstruction from brain activity Authors Guy Gaziv, Michal Irani 在过去的几年里,使用深层学习工具,重建来自FMRI脑记录的观察到的自然图像的重大进步。在这里,首次显示观察到的2D自然图像的致密3D深度图也可以直接从FMRI脑记录中恢复。我们使用了搁置方法来估计自然图像的未知深度图。这适用于I的少量图像呈现给FMRI扫描仪图像中的对象的图像,我们将FMRI记录称为配对数据,以及II非常数量的自然图像,没有FMRI记录未配对数据。然后将估计的深度图用作辅助重建标准,用于直接从FMRI训练进行深度重建。我们提出了两个主要方法深度恢复和联合图像深度RGBD恢复。由于具有FMRI的可用配对训练数据图像的数量很小,因此我们通过自我监督的周期来丰富培训数据一致培训许多未配对的数据自然图像深度映射而没有FMRI。这是通过基于新定义的和训练的深度的感知相似度等来实现的,作为重建标准。我们表明,直接从FMRI预测深度映射优于从重建的图像间接顺序恢复。我们进一步表明,早期皮质视觉区域的激活占据了我们的深度重建结果,并提出了通过其深度信息调整程度表征FMRI体素的意味着。这项工作增加了一个重要的解码信息层,扩展了视觉脑解码能力的当前包络。 |
An Efficient Point of Gaze Estimator for Low-Resolution Imaging Systems Using Extracted Ocular Features Based Neural Architecture Authors Atul Sahay, Imon Mukherjee, Kavi Arya 用户的眼睛为人机交互的手段提供了一种重要的模式作为一个重要的模态。目前对眼睛的科学探索的时间已经看到了从凝视估计到给定时间段看屏幕的用户的注意力衡量的HCI应用中的益处的升高。眼睛跟踪系统作为辅助,交互式工具可以通过物理残疾人合并,适合那些只有一组有限的通信的人。本文的三重目标是1.引入基于神经网络的基于神经网络的架构,以通过基于低分辨率的系统(例如网络摄像头)通过学习各个方面,在屏幕上显示的9个位置以9个位置预测用户凝视。眼睛作为眼镜特征。 2.在实时获得的粗略监督功能集的集合也通过纸张中提出的21个人17个男性和4名妇女的用户案例研究验证,其中4个女性从中获得了35套实例,精度得分为82.36 F1得分为82.2和3.a对这种系统的适用性和潜在挑战进行了详细的研究。实验结果验证了所提出的眼睛凝视跟踪模型的可行性和有效性。 |
ST++: Make Self-training Work Better for Semi-supervised Semantic Segmentation Authors Lihe Yang, Wei Zhuo, Lei Qi, Yinghuan Shi, Yang Gao 在本文中,我们调查我们是否可以使自我训练成为一个简单但流行的框架,更好地为半监督分割工作。由于半监督设定中的核心问题是有效而有效地利用未标记数据,我们注意到增加未标记数据的多样性和硬度至关重要,对性能改进至关重要。了解这一事实,我们建议采用最简单的自我培训方案,耦合与未标记数据的适当强大的数据增强,即ST为此任务,这令人惊讶地优于以前的各种设置,没有任何响铃和吹口哨。此外,为了减轻错误的伪标记图像的负面影响,我们进一步提出了一种先进的自我训练框架,即ST,通过选择和优先考虑更可靠的未标记图像来执行选择性RE训练。因此,所提出的ST提高了半导体监督模型的性能,并在Pascal VOC 2012和CityCapes基准测试中超越了现有方法。总的来说,我们希望这种简单和简单的框架将成为未来作品的强大基线或竞争对手。代码可用 |
Semi-supervised lane detection with Deep Hough Transform Authors Yancong Lin, Silvia Laura Pintea, Jan van Gemert 当前的车道检测工作依赖于大型手动注释的数据集。我们通过利用大规模便宜的未标记数据来减少对注释的依赖性。我们提出了一种新的损失函数,利用霍夫空间中的车道几何知识,其中车道可以被识别为局部最大值。通过将车道分成单独的频道,我们可以通过简单的全局最大池定向每个车道。最大位置对车道的布局进行编码,而强度表示存在的车道的概率。最大化最大箱的日志概率有助于神经网络在没有标签的情况下找到车道。在Culane和TusiMple数据集上,我们表明,通过从大量未标记的图像学习,提出的Hough变换损失显着提高了性能。 |
Agile wide-field imaging with selective high resolution Authors Lintao Peng, Liheng Bian, Tiexin Liu, Jun Zhang 广场和高分辨率HR成像对于航空侦察,地形映射和安全监测等各种应用至关重要。现有技术需要大规模的探测器阵列来捕获整个场的HR图像,从而产生高复杂性和重度。在这项工作中,我们报告了一个有选择性高分辨率的敏捷宽野成像框架,只需要两个探测器。它建立在自然场景之前的统计稀疏性,重要的目标仅在兴趣的小区地区找到ROI,而不是整个领域。在此假设下,我们使用短焦相机以具有一定的低分辨率的图像宽场,并使用长焦会相机获取ROI的HR图像。要实时地自动定位ROI,我们提出了一个高效的基于深度学习的多尺度注册方法,这是两个摄像机之间的大型设置差异焦点,白平衡等的强大和盲目。使用注册位置,安装在GIMBAL上的长焦相机可以实时跟踪ROI以进行连续的HR成像。我们通过仅以1181克重量构建概念设置证明,并将其组装在无人驾驶飞行器上,以展示新的成像框架。实验表明,设置维护了120个Circ宽视野FoV,选择性0.45Mrad瞬时FOV。 |
Towards Training Stronger Video Vision Transformers for EPIC-KITCHENS-100 Action Recognition Authors Ziyuan Huang, Zhiwu Qing, Xiang Wang, Yutong Feng, Shiwei Zhang, Jianwen Jiang, Zhurong Xia, Mingqian Tang, Nong Sang, Marcelo H. Ang Jr 随着近期视觉变压器的研究浪潮,它们对各种具有挑战性的计算机视觉应用的潜力表现出显着的潜力,例如图像识别,点云分类以及视频理解。在本文中,我们在史诗厨房100行动识别数据集上培训更强大的视频视觉变压器的经验结果。具体而言,我们探索视频视觉变压器的培训技术,例如增强,分辨率以及初始化等。在我们的训练配方中,单一的Vivit模型实现了47.4的验证厨房100个数据集的验证组的性能,表现优于什么在原文中报告3.4。我们发现视频变压器特别擅长预测动词名词动作预测任务中的名词。这使得视频变压器的整体动作预测精度明显高于卷积器。令人惊讶的是,即使是最佳的视频变压器也在动词预测上表现出卷积网络。因此,我们将视频视觉变压器和一些卷积视频网络结合起来,并将我们的解决方案展示了史诗厨房100行动识别竞争。 |
Salient Object Ranking with Position-Preserved Attention Authors Hao Fang, Daoxin Zhang, Yi Zhang, Minghao Chen, Jiawei Li, Yao Hu, Deng Cai, Xiaofei He 实例分段可以检测对象在图像中的位置,但很难理解它们之间的关系。我们注意一个典型的关系,相对显着性。密切相关的任务,突出的对象检测,预测突出显示视觉突出区域的二进制图,同时难以区分多个物体。直接通过后处理结合两个任务也会导致性能不佳。目前缺乏对相对显着性的研究,限制了内容感知图像裁剪,视频摘要和图像标记等实际应用。 |
Towards Defending against Adversarial Examples via Attack-Invariant Features Authors Dawei Zhou, Tongliang Liu, Bo Han, Nannan Wang, Chunlei Peng, Xinbo Gao 深度神经网络DNN易受对抗性噪音。通过利用对抗性示例可以改善它们的对抗性鲁棒性。然而,鉴于连续不断发展的攻击,培训的模型在所见的对手实例上培训通常不能呈很好地呈良好,以易于看不见的对抗性实例。为了解决这个问题,在本文中,我们建议通过在维护语义分类信息的攻击中学习更广泛的不变特征来消除对抗性噪声。具体而言,我们引入了对来自对抗噪声的不变特征的对抗性特征学习机制。在攻击不变特征的编码空间中提出了归一化术语,以解决所看到和看不见的攻击类型之间的偏置问题。实证评价表明,与以前的现有技术的方法相比,我们的方法可以提供更好的保护,特别是针对看不见的攻击和适应性攻击。 |
Dual-Modality Vehicle Anomaly Detection via Bilateral Trajectory Tracing Authors Jingyuan Chen, Guanchen Ding, Yuchen Yang, Wenwei Han, Kangmin Xu, Tianyi Gao, Zhe Zhang, Wanping Ouyang, Hao Cai, Zhenzhong Chen 交通异常检测在智能交通系统中发挥了至关重要的作用。这项任务的主要挑战位于高度多元化的异常场景和变分的照明条件。虽然有很多工作已经设法识别同质天气和场景中的异常,但很少有决定应对复杂的异常。在本文中,我们提出了一种适用于异常车辆的鲁棒检测的双模块化方法。我们介绍了一个集成的异常检测框架,包括以下模块背景建模,具有检测的车辆跟踪,掩模结构,感兴趣区域ROI回溯,以及双模追踪。具体地,我们使用后台建模来过滤运动信息并留下静态信息以供以后的车辆检测。对于车辆检测和跟踪模块,我们采用YOLOV5和多尺度跟踪来定位异常。此外,我们利用帧差和跟踪结果来识别道路并获得掩模。此外,我们介绍了多个相似性估计指标来通过反向特性来优化异常时期。最后,我们提出了一种双模双边跟踪模块来进一步改进时间。在NVIDIA 2021 Ai City挑战的轨道4测试集上进行的实验产生了0.9302 F1得分和3.4039根均方误差RMSE,表明我们框架的有效性。 |
Salient Positions based Attention Network for Image Classification Authors Sheng Fang, Kaiyu Li, Zhe Li 自我关注机制吸引了广泛的宣传,为其建模长依赖性的最重要的优势,以及计算机视觉任务的变化,非本地块试图模拟输入特征映射的全局依赖性。收集全球上下文信息将不可避免地需要大量的内存和计算资源,这在过去几年中已被广泛研究过。然而,自我关注方案存在另一个问题是从全球范围收集的所有信息都有助于对我们的知识的背景建模,很少有研究则重点是该问题。本文针对这两项问题提出了基于突出的关注方案SINCEL,这是由一些关于自我注意方案中产生的关注图和亲和力矩阵的一些有趣的观察。我们认为,这些观察是有益的,可以更好地理解自我关注。 SINCET使用突出位置选择算法来仅选择有限量的突出点来参加注意地图计算。这种方法不仅将备份很多内存和计算资源,还可以尝试从输入特征映射的转换中蒸馏出正面信息。在实现中,考虑与通道高维度的特征映射,它们与一般视觉图像完全不同,我们将特征映射的平方功率沿信道维度作为位置的显着度量。通常,与非本地块方法不同,S33,S3MET沿着信道维数而不是空间维度使用所选位置而不是全部使用所选择的位置。我们的源代码可用 |
CLCC: Contrastive Learning for Color Constancy Authors Yi Chen Lo, Chia Che Chang, Hsuan Chao Chiu, Yu Hao Huang, Chia Ping Chen, Yu Lin Chang, Kevin Jou 在本文中,我们呈现CLCC,这是一种用于色恒定的新型对比学习框架。对图形分类的学习高质量的视觉表现已经应用了对比学习。为图像分类产生有用表示的一个关键方面是设计光源不变的增强。然而,光源不变假设与颜色恒定任务的性质冲突,旨在估计给定原始图像的发光体。因此,我们构建有效的对比对来通过新颖的原域颜色增强学习更好的光源依赖性特征。在NUS 8数据集上,我们的方法提供了17.5的相对改进,在强大的基线上,达到了最新的现实性能而不提高模型复杂性。此外,我们的方法在Gehler DataSet上实现了竞争性能,而参数比较排名较大的深度学习方法相比,参数较少3倍。更重要的是,我们表明我们的模型在密切关注的光源下对不同场景更加强大,显着减少了数据稀疏区域中的28.7个最坏情况。 |
Towards Explainable Abnormal Infant Movements Identification: A Body-part Based Prediction and Visualisation Framework Authors Kevin D. McCay, Edmond S. L. Ho, Dimitrios Sakkos, Wai Lok Woo, Claire Marcroft, Patricia Dulson, Nicholas D. Embleton 提供脑瘫CP的早期诊断是加强受影响人的发展结果的关键。诊断工具如一般运动评估GMA,在早期诊断中产生了有希望的结果,但这些手动方法可能是费力的。 |
Real Time Egocentric Object Segmentation: THU-READ Labeling and Benchmarking Results Authors E. Gonzalez Sosa, G. Robledo, D. Gonzalez Morin, P. Perez Garcia, A. Villegas 由于它们在混合现实MR应用程序中,Egocentric细分已经吸引了最近对计算机视觉界的兴趣。虽然最先前的作品一直专注于分割Egentric人体部位,但对Egentric物品的注意力很少。由于缺少像素的Pixel的数据集,在本文中,我们用来自RGB D THU读取数据集的2124个图像子集的语义明智标记。我们还通过Thundernet,实时语义分段网络报告基准测试结果,这可能允许未来集成与结束以结束先生应用程序。 |
Self-supervision of Feature Transformation for Further Improving Supervised Learning Authors Zilin Ding, Yuhang Yang, Xuan Cheng, Xiaomin Wang, Ming Liu 自我监督的学习,它通过预先设计的借口任务自动构建标签,最近申请加强监督学习。由于以前的自我监督的借口任务基于输入,因此它们可能会产生巨大的额外培训开销。在本文中,我们发现CNN中的功能也可以用于自我监督。因此,我们创造性地设计了基于EMPH功能的借口任务,该任务只需要少量的额外训练开销。在我们的任务中,我们丢弃了不同特定的功能区域,然后培训模型以区分这些不同的功能。为了在监督学习中完全应用基于借口任务,我们还提出了一种新的学习框架,其中包含多分类器以进一步改进。通过自我监督,原始标签将扩展到联合标签。通过我们自我监督任务提供的更多语义信息,这种方法可以更有效地训练CNN。关于各种监督学习任务的广泛实验表明了我们方法的准确性提高和广泛适用性。 |
Self-supervised Feature Enhancement: Applying Internal Pretext Task to Supervised Learning Authors Yuhang Yang, Zilin Ding, Xuan Cheng, Xiaomin Wang, Ming Liu 传统的自我监督学习需要使用外部借口任务的CNN,图像或视频基于基于视频的任务来编码高电平语义视觉表示。在本文中,我们显示CNN内的功能转换也可以被视为监督信号来构建自我监督任务,称为EMPH内部借口任务。而这样的任务可用于增强监督学习。具体地,我们首先通过丢弃不同的通道来转换内部特征映射,然后定义附加的内部借口任务以识别丢弃的通道。 CNN培训以预测自我监督标签和原始标签的组合产生的关节标签。通过这样做,我们可以让CNNS知道在对挤出更丰富的功能信息的希望中进行分类时缺少哪些频道。广泛的实验表明,我们的方法对各种模型和数据集有效。值得注意的是,我们只会产生可忽略不计的计算开销。此外,我们的方法也可以与其他方法兼容以获得更好的结果。 |
Cervical Cytology Classification Using PCA & GWO Enhanced Deep Features Selection Authors Hritam Basak, Rohit Kundu, Sukanta Chakraborty, Nibaran Das 宫颈癌是全世界妇女最致命和常见的疾病之一。如果在早期阶段诊断,它是完全可固化的,但繁琐且昂贵的检测程序使其无法进行人口明智的筛选。因此,为了增加临床医生的努力,在本文中,我们提出了一种完全自动化的框架,利用深度学习和特征选择,使用进化优化进行细胞学图像分类。所提出的框架从多个卷积神经网络模型中提取深度特征,并使用两步的特征减少方法来确保计算成本和更快的收敛性。从CNN模型中提取的特征形成了一个大的特征空间,其使用主成分分析减少了维度,同时保留了差异的99。使用灰狼优化器,灰狼优化器的进化优化算法,从这个特征空间中选择非冗余,最佳的特征子集,从而提高了分类性能。最后,所选特征子集用于训练SVM分类器以生成最终预测。拟议的框架是在三个公开可用的基准数据集Mendeley液体细胞学4类数据集,Herlev PAP涂片7类数据集中进行评估,以及Sipakmed PAP涂片5类数据集分别实现了99.47,98.32和97.87的分类精度,从而证明了可靠性该方法。可以找到所提出的方法的相关代码 |
Exploiting Learned Symmetries in Group Equivariant Convolutions Authors Attila Lengyel, Jan C. van Gemert 集团的等级卷积GConvs使卷积神经网络能够对各种转换组等于各种变换组,而是额外参数和计算成本。我们调查GConvs学习的过滤器参数,并找到它们变得高度多余的某些条件。我们表明GConvs可以有效地分解成深度可分离的卷曲,同时保留了标准性属性,并在两个数据集上展示了改进的性能和数据效率。所有代码都公开提供 |
Deep Tiny Network for Recognition-Oriented Face Image Quality Assessment Authors Baoyun Peng, Min Liu, Heng Yang, Zhaoning Zhang, Dongsheng Li 由于深度卷积神经网络CNN,近年来,人脸识别取得了重大进展。在许多面部识别场景中,从具有巨大帧内变化的序列获取面部图像。这些主要由低质量面部图像影响的帧内变化导致识别性能的不稳定性。以前的作品专注于临时方法,以从视频或使用面部图像质量评估FIQA方法中选择帧,这仅考虑几种扭曲的特定或组合。 |
Tracking by Joint Local and Global Search: A Target-aware Attention based Approach Authors Xiao Wang, Jin Tang, Bin Luo, Yaowei Wang, Yonghong Tian, Feng Wu 通过检测跟踪是一种非常流行的框架,用于单个对象跟踪,该框架是尝试在每个帧的本地搜索窗口中搜索目标对象。虽然这种本地搜索机制适用于简单的视频,但是,它使跟踪器对极其具有挑战性的情景敏感,例如沉重的遮挡和快速运动。在本文中,我们提出了一种新的和一般的目标意识到的注意力机制,被称为Tanet并通过检测框架进行跟踪,以进行联合本地和全球搜索的鲁棒跟踪。具体而言,我们提取目标对象补丁和连续视频帧的特征,然后我们连接并馈送到解码器网络中以生成目标了解全局注意图。更重要的是,我们求助于对抗培训以获得更好的注意预测。外观和运动鉴别器网络旨在确保其在空间和时间视图中的一致性。在跟踪过程中,我们通过探索候选搜索区域进行鲁棒跟踪,将目标意识注意与多个跟踪集成在一起。关于短期和长期跟踪基准数据集的广泛实验全部验证了算法的有效性。本文的项目页面可以在URL找到 |
CoAtNet: Marrying Convolution and Attention for All Data Sizes Authors Zihang Dai, Hanxiao Liu, Quoc V. Le, Mingxing Tan 变形金刚引起了计算机愿景的越来越兴趣,但它们仍然落后于艺术卷积网络的状态。在这项工作中,我们表明,虽然变压器往往具有更大的模型能力,但由于缺乏正确的归纳偏差,它们的概括可能比卷积网络更差。为了有效地结合两种架构的优势,我们呈现衣帽藤发音衣网,这是一个由两个关键洞察的一个混合模型的混合模型1深度卷积和自我注意,可以通过简单的相对关注2垂直堆叠卷积层和注意层。原则性的方式令人惊讶地有效地改善泛化,能力和效率。实验表明,我们的衣帽在各种数据集的不同资源限制下实现了最新的现有性能。例如,Toodnet实现86.0 ImageNet Top 1的1精度,无需额外数据,89.77,具有额外的JFT数据,优于卷积网络和变压器的现有技术。值得注意的是,当预先培训13米的图像从Mimagenet 21K中,我们的衣帽达到88.56前1个精度,匹配vIT巨大的预先训练,使用JFT的300M图像,同时使用23倍的数据。 |
Point Cloud Upsampling via Disentangled Refinement Authors Ruihui Li, Xianzhi Li, Pheng Ann Heng, Chi Wing Fu 3D扫描产生的点云通常稀疏,非均匀和嘈杂。最近的上采样方法旨在产生密集点集,同时实现分布均匀性和邻近的表面,并且可能在一个网络中修改小孔。重新审视任务后,我们建议根据其多目标性质解开任务,并制定两个级联子网,密集发电机和空间炼油厂。密集的发电机缩小粗糙但致密的输出,粗略地描述下面的表面,而空间炼油厂通过调整每个点的位置来进一步精细调谐粗输出。具体而言,我们在空间炼油厂中设计一对本地和全球细化单元,以发展粗略的特征图。此外,在空间炼油厂中,我们将偏移偏移矢量退回以进一步调整精细量表的粗略输出。合成和真实扫描数据集的广泛定性和定量结果证明了我们对现有技术的方法的优势。 |
SHARP: Shape-Aware Reconstruction of People In Loose Clothing Authors Sai Sagar Jinka, Rohan Chacko, Astitva Srivastava, Avinash Sharma, P.J. Narayanan 3D单眼图像的人体重建是在多个域中具有更广泛应用的计算机视觉中有趣和不良的问题。在本文中,我们提出了一款新颖的终端训练网络,精确地恢复了从单眼图像的松散衣物中的3D人的详细几何和外观。在衣服模型的非参数去皮深度图表示之前,我们提出了参数体的稀疏和有效的融合。参数正文先前的约束我们的模型首先,网络保留了不受衣服封闭的几何一致身体部位,而第二,它提供了改善剥离深度图的预测的体形上下文。这使得在给定输入图像的情况下,通过在2D地图上的L1损耗仅恢复细粒度的3D几何细节。我们在公开可用的布料3D和Thuman数据集中评估夏普,并向最先进的方法报告卓越的性能。 |
VALUE: A Multi-Task Benchmark for Video-and-Language Understanding Evaluation Authors Linjie Li, Jie Lei, Zhe Gan, Licheng Yu, Yen Chun Chen, Rohit Pillai, Yu Cheng, Luowei Zhou, Xin Eric Wang, William Yang Wang, Tamara Lee Berg, Mohit Bansal, Jingjing Liu, Lijuan Wang, Zicheng Liu 大多数现有的视频和语言Vidl研究侧重于单个数据集或单个任务的多个数据集。实际上,预计真正有用的VIDL系统将很容易地概括为不同的任务,域和数据集。为了促进这些系统的评估,我们引入了视频和语言理解评估值基准,这是11个vidl数据集的组合,超过3个流行的任务我文本到视频检索II视频问题应答和III视频字幕。价值基准旨在涵盖广泛的视频流域,视频长度,数据卷和任务难度级别。同时只关注单个频道视频,而不是仅关注单个频道视频,促使利用视频帧及其关联的字幕的信息以及跨多个任务共享知识的模型来促进利用信息的模型。我们评估各种基线方法,无需大规模VIDL预培训,并系统地研究视频输入通道,融合方法和不同视频表示的影响。我们还研究了任务之间的可转换性,并在不同的设置下进行多项任务学习。我们最佳模型与人类性能之间的重大差距来呼吁进行高级VIDL模型的未来研究。价值可用 |
PAM: Understanding Product Images in Cross Product Category Attribute Extraction Authors Rongmei Lin, Xiang He, Jie Feng, Nasser Zalmout, Yan Liang, Li Xiong, Xin Luna Dong 了解产品属性在提高客户的在线购物体验方面发挥着重要作用,并作为构建产品知识图形的组成部分。大多数现有方法专注于文本描述的属性提取或利用来自产品图像(如形状和颜色)的可视信息。与先前作品中考虑的输入相比,产品形象实际上包含更多信息,由丰富的单词和视觉线索混合表示,具有仔细设计给客户留下深刻印象的布局。这项工作提出了一种更具包容性框架,它充分利用了这些不同的属性提取模式。灵感来自最近的作品在视觉问题的回答中,我们使用基于变压器的序列来序列模型,以融合产品文本的融合表示,光学字符识别OCR令牌和在产品图像中检测到的可视对象。该框架通过培训解码器来预测产品类别和属性值以及在产品类别上的输出,进一步扩展了具有单个模型的多个产品类别跨多个产品类别的属性值的功能。该模型提供了在电子商务平台上可取的统一属性提取解决方案,该平台提供具有多种产品属性的产品类别。我们在两个产品属性上进行了评估模型,一个具有许多可能的值,一个具有一小一小一组可能的值,超过14个产品类别,并且发现该模型可以在召回的召回和10个增益与现有方法相比,F1分数可以实现15个增益。仅使用文本功能。 |
Check It Again: Progressive Visual Question Answering via Visual Entailment Authors Qingyi Si, Zheng Lin, Mingyu Zheng, Peng Fu, Weiping Wang 虽然复杂的视觉问题应答模型取得了显着的成功,但它们倾向于根据问答之间的肤浅相关性仅回答问题。已经开发了几种最近的方法来解决此语言前提问题。然而,它们中的大多数预测了根据一个最佳输出的正确答案,而无需检查答案的真实性。此外,他们只探讨了图像和问题之间的互动,忽略了候选答案的语义。在本文中,我们提出了一种基于视觉素食的选择和重演SAR渐进式框架。具体来说,我们首先选择与问题或图像相关的候选答案,然后我们通过视觉征征任务重新恢复候选答案,该任务验证图像是否针对问题的合成声明和每个候选答案。实验结果表明了我们提出的框架的有效性,该框架在VQA CP V2上建立了新的技术准确性,具有7.55的改进。 |
Multi-Facet Clustering Variational Autoencoders Authors Fabian Falck, Haoting Zhang, Matthew Willetts, George Nicholson, Christopher Yau, Christopher C Holmes 在深度集群中的工作侧重于找到一个数据分区。然而,诸如图像的高维数据通常可以聚集多个有趣的特征。例如,可以通过背景的颜色分开地聚集在对象的形状上并通过背景的颜色来聚集对象的图像。在本文中,我们介绍了多面聚类变形变形AutoEncoders MFCVAE,一种新型的变形自动码器,具有潜在变量的层次,每个分层都具有高斯的混合,即同时学习多个群集,并训练完全无监视并结束结束。 MFCVAE使用逐步训练有素的梯形架构,这导致高度稳定的性能。我们为分析分析分析后分布分析,提供了对优化ELBO的新颖理论结果,并纠正早期的影响力理论上。在图像基准上,我们证明我们的方法在数据的不同方面分开和集群以解除一致的方式。我们还显示了我们模型的其他优势,其潜在空间的合成性,它提供了受控的样品。 |
I Don't Need $\mathbf{u}$: Identifiable Non-Linear ICA Without Side Information Authors Matthew Willetts, Brooks Paige 在这项工作中,我们为可识别的非线性ICA模型引入了一种新方法。最近,在深度生成模型中,尚未成为非线性ICA的内部生成模型的文艺复兴。然而,这些先前的作品假设了对足够丰富的辅助观察组的访问,表示MathBF U。我们在这里展示了在不存在此侧面信息的情况下如何获得可识别性,呈现可能的完全无监督的可识别非线性ICA。虽然以前的理论结果已经在存在无限柔性的通用函数近似器存在下建立了可识别的非线性ICA的不可能性,但在这里我们依赖于深生成模型的任何特定所选择的参数的本质上有限的建模能力。特别是,我们专注于在其潜在空间中执行聚类的生成模型,该模型结构与以前的可识别模型匹配,而是使用学习群集提供合成形式的辅助信息。我们在合成和图像数据集中使用VAES评估我们的提案,并发现学习的集群功能有效地具有潜在群集的深层生成模型是经验识别的,与依赖侧面信息的模型相同。 |
Implicit field learning for unsupervised anomaly detection in medical images Authors Sergio Naval Marimont, Giacomo Tarroni 我们提出了一种基于隐式场图像表示的医学图像的分发检测方法的小说。在我们的方法中,自动解码器馈送前向神经网络以在组织类型的代理上的空间坐标和概率之间的映射形式中学习健康图像的分布。在推断时间,学习分布用于从给定的测试图像检索恢复,即,与输入一个,但属于健康分布的图像最大限度地保持一致。使用我们的模型预测的恢复图像预测的Voxel明显概率是本地化的。我们在脑MR图像上无监督定位的任务中测试了我们的方法,并将其与其他几种基于VAE的异常检测方法进行比较。结果表明,对于最佳性能的vae的替代,所提出的技术基本上呈现0.640 Vs 0.518的平均骰子0.640 Vs 0.518,同时也需要相当较少的计算时间。 |
Rethink Transfer Learning in Medical Image Classification Authors Le Peng, Hengyue Liang, Taihui Li, Ju Sun 通过深度卷积神经网络转移学习TL DCNNS在医学图像分类麦克风中成功。然而,当前的做法是令人费解的,因为麦克风通常仅依赖于在DCNN的底层中学到的低和或中间级别特征上。在这种直觉之后,我们质疑MIC中TL的当前策略。在本文中,我们使用不同的TL策略对两个胸部X射线数据集进行分类的浅层和深网络之间的仔细实验比较。我们发现深层模型并不总是有利的,截断的深层模型几乎总是产生最佳性能,特别是在数据差的制度中。 |
A multi-stage GAN for multi-organ chest X-ray image generation and segmentation Authors Giorgio Ciano, Paolo Andreini, Tommaso Mazzierli, Monica Bianchini, Franco Scarselli X射线图像的多器官分割对于计算机辅助诊断系统具有基本重要性。然而,最先进的语义分割方法依赖于深度学习并且需要大量标记的图像,这很少由于人力资源的高成本以及标记所需的时间而获得。在本文中,我们介绍了一种基于生成的对抗网络GAN的新型多阶段生成算法,其可以与其语义标签一起生产合成图像,并且可以用于数据增强。该方法的主要特征是,与其他方法不同,生成在几个阶段发生,这简化了过程,并允许它在非常小的数据集上使用。该方法已经在胸部放射线图像的分割上进行了评估,呈现出有前途的结果。多级方法实现了现有技术,当使用极少的图像来训练GAN时,优于相应的单级方法。 |
Gaussian Mixture Estimation from Weighted Samples Authors Daniel Frisch, Uwe D. Hanebeck 我们考虑估计高斯混合密度的参数,其具有最佳代表给定的一组加权样品的组件数量。我们通过将它们视为具有加权组分的连续结构域的离散Dirac混合密度来采用样品的密度解释。因此,高斯混合拟合被视为密度重新近似。为了加速计算,提出了期望最大化方法,其不仅考虑了样本位置,还考虑了相应的权重。结果表明,文献的方法不正确地治疗权重,导致错误的估计。这是用简单的反例来证明。所提出的方法在任何数量的尺寸下工作,该尺寸与用于未加权样品的标准高斯混合估计相同的计算负载。 |
No Fear of Heterogeneity: Classifier Calibration for Federated Learning with Non-IID Data Authors Mi Luo, Fei Chen, Dapeng Hu, Yifan Zhang, Jian Liang, Jiashi Feng 现实世界联邦系统中培训分类模型中的中央挑战正在使用非IID数据学习。要应对这一点,现有的大多数作品都涉及在本地优化中强制正则化或在服务器上提高模型聚合方案。其他作品还分享公共数据集或合成样本,以补充所代表的课程的培训或引入一定程度的个性化。虽然有效,但它们缺乏对数据异质性如何影响深度分类模型的每层的深刻理解。在本文中,我们通过对不同层学于学习的陈述进行实验分析来弥合这种差距。我们的观察结果令人惊讶地1在分类器中存在比其他层更大的偏差,并且通过在联合训练后校准分类器后,可以显着改善分类性能。通过上述调查结果,我们提出了一种新颖的和简单的算法,称为分类器校准,虚拟表示CCVR,其使用从近似高斯混合模型采样的虚拟表示调整分类器。实验结果表明,CCVR在包括CIFAR 10,CIFAR 100和CICIC 10中的流行联合学习基准上实现了最新的艺术表现状态。我们希望我们的简单而有效的方法能够在未来对非IID数据的未来研究的阐明。 。 |
It Takes Two to Tango: Mixup for Deep Metric Learning Authors Shashanka Venkataramanan, Bill Psomas, Yannis Avrithis, Ewa Kijak, Laurent Amsaleg, Konstantinos Karantzalos 度量学习涉及学习歧视性表示,使得鼓励类似课程的嵌入是关闭的,而不同的类别的嵌入是相距较远的。最先进的方法主要关注复杂的损失功能或采矿策略。一方面,度量学习损失一次考虑两个或更多个例子。另一方面,现代数据增强方法一次考虑两个或更多示例。研究了两种想法的组合。 |
Spatio-Temporal Dual-Stream Neural Network for Sequential Whole-Body PET Segmentation Authors Kai Chieh Liang, Lei Bi, Ashnil Kumar, Michael Fulham, Jinman Kim 序贯全身18F氟脱氧葡萄糖FDG正电子发射断层扫描PET扫描被认为是评估淋巴瘤中治疗响应的选择的成像模型,因为当解剖学成像可能没有变化时检测治疗响应。全身宠物淋巴瘤的任何计算机化分析都需要自动分割研究,以便可以随时间定量监测疾病部位。艺术宠物图像分割方法的状态基于卷积神经网络CNN,因为它们能够利用带注释的数据集来导出关于疾病过程的高级特征。然而,这种方法专注于来自单个时间点的PET图像并从其他扫描丢弃信息或朝向特定器官靶向,并且不能迎合全身PET图像中的多个结构。在这项研究中,我们提出了一个季度时间双流神经网络ST DSNN,以段序列整体宠物扫描。我们的ST DSNN学习并累积随时间完成的PET图像的图像特征。累积的图像特征用于增强随时间一致的器官结构,以便更容易地识别活性淋巴瘤的部位。我们的结果表明,我们的方法优于艺术宠物图像分割方法的状态。 |
Continuous-discrete multiple target tracking with out-of-sequence measurements Authors ngel F. Garc a Fern ndez, Wei Yi 本文在连续时间内源于多个目标跟踪的连续时间出来的最佳贝叶斯处理。我们考虑在连续时间内建模的多目标系统,该系统在接收到根据标准点目标模型分布的测量时在时间步骤在时间步骤进行离散的。在采样时间步骤中的所有关于该系统的信息都是由所有轨迹集的后密度提供的。这种密度可以通过连续的离散轨迹泊松多Bernoulli混合物TPMBM滤波器来计算。当我们收到OOS测量时,最佳贝叶斯处理执行改造步骤,该转换步骤在OOS测量时间戳下方添加轨迹信息,然后是更新步骤。在OOS测量更新之后,后部保留在TPMBM形式中。我们还提供基于轨迹泊松多Bernoulli滤波器的计算方式替代品。通过模拟评估两种处理OOS测量方法的方法的有效性。 |
Fast Computational Ghost Imaging using Unpaired Deep Learning and a Constrained Generative Adversarial Network Authors Fatemeh Alishahi, Amirhossein Mohajerin Ariaei 未配对的培训可以是基于快速深度学习的鬼成像的唯一选择,其中获得每个低SNR Ghost图像的高信噪比SNR图像副本可能是实际耗时和具有挑战性的。本文探讨了深度学习的能力在缺乏配对训练图像时利用计算鬼成像。这里提出的深度学习方法能够通过使用受约束的Wassersein生成的对冲网络从微弱和匆忙拍摄Ghost图像重建高SNR图像来快速鬼映像。在提出的方法中,客观函数正规化,以强制生成忠诚和相关的高SNR图像到鬼副本。该正则化测量由阴影网络生成的低噪声歧管中重建图像和微弱重影图像之间的距离。被约束网络的性能显示为具有低SNR的鬼图像尤为重要。所提出的管道能够从Ghost图像重建高质量图像,SNR值不一定等于训练集的SNR。 |
Accelerating Neural Architecture Search via Proxy Data Authors Byunggook Na, Jisoo Mok, Hyeokjun Choe, Sungroh Yoon 尽管对神经结构的兴趣日益增加,但NAS的显着计算成本是研究人员的障碍。因此,我们建议使用代理数据,即目标数据的代表子集来降低NAS的成本,而不会牺牲搜索性能。尽管在各种领域使用了数据选择,但我们对NAS Bench 1shot1提供的NAS算法的现有选择方法的评估表明它们并不总是适用于NAS,并且需要新的选择方法。通过通过数据熵分析使用各种选择方法构造的代理数据,我们提出了一种针对NAS定制的新型代理数据选择方法。为了凭经验展示有效性,我们对各种数据集,搜索空间和NAS算法进行了彻底的实验。因此,NAS算法与所提出的选择发现架构,这些架构与使用整个数据集获得的架构具有竞争力。它显着降低了所提出的选择的搜索成本执行飞镖,在Cifar 10和7.5小时内只需要40分钟,在ImageNet上具有单个GPU。另外,当使用所提出的选择上搜索的架构上搜索到图中的架构倒到CiFar 10时,产生了2.4的最先进的测试误差的状态。我们的代码可供选择 |
Uncovering Closed-form Governing Equations of Nonlinear Dynamics from Videos Authors Lele Luan, Yang Liu, Hao Sun 蒸馏来自数据的分析模型有可能推进我们对非线性动力学的理解和预测。尽管基于观察到的系统状态的控制方程的发现,但是,轨迹时间序列在广泛的非线性动力学中揭示了成功,直接从原始视频揭开封闭形式方程仍然是一个开放的挑战。为此,我们介绍了一个新颖的端到结束无监督的深度学习框架,以发现揭示控制视频中移动物体动态的方程的数学结构。这样的架构由1个编码器解码器网络组成,该编码器解码器网络学习移动对象的低维空间像素坐标,2是从提取的空间像素坐标和动态的潜在物理状态之间创建映射的学习空间物理转换组件,以及3个数字基于集成器的稀疏回归模块,其揭示了学习物理状态的管理方程的解析闭合形式,同时是对AutoEncoder的约束。通过揭示通过在视频中移动对象所描绘的各种非线性动力系统的控制的控制方程来证明所提出的方法的功效。由此产生的计算框架可以在仅可用视频的灵活和可访问的感测环境中发现解析解释模型。 |
Ex uno plures: Splitting One Model into an Ensemble of Subnetworks Authors Zhilu Zhang, Vianne R. Gao, Mert R. Sabuncu Monte Carlo MC辍学是一种简单而有效的合奏方法,可以提高高容量深度神经网络模型的准确性和置信度校准。但是,MC辍学并不像更加计算的密集型方法,如深融合一样有效。这种性能差距可以归因于MC辍学集合中各个模型的质量相对较差及其缺乏多样性。这些问题又可以追溯到耦合训练和大量参数共享的辍学模型。通过这种观点,我们提出了一种策略来计算子网的集合,每个策略对应于通过修剪策略计算的非重叠丢弃掩码并独立培训。我们表明,所提出的子网合并方法可以在准确性和不确定性估算中执行和标准的深度集成,但具有类似于MC辍学的计算效率。最后,使用像CiFar10 100,Cub200和微小想象的多个电脑视觉数据集,我们通过实验证明了Subnetworks合奏,最近还始终呈现出高效集合神经网络的方法。 |
AdaMatch: A Unified Approach to Semi-Supervised Learning and Domain Adaptation Authors David Berthelot, Rebecca Roelofs, Kihyuk Sohn, Nicholas Carlini, Alex Kurakin 我们将半监督学习扩展到域适应问题,以了解在一个数据分布上培训的明显更高的准确性模型和不同的准确性模型。凭借普遍的目标,我们介绍了模拟,这是一种统一无监督域适应的任务的方法,半监督学习SSL和半监督域适应SSDA。在一个广泛的实验研究中,我们将其与来自SSL,SSDA和UDA的各自的现有技术的行为进行比较,在视觉分类任务上。我们发现匹配无论数据集或任务如何,都使用相同的超参数匹配或显着超过本领域的状态。例如,与在DomainNet的UDA任务上的现有技术相比,模拟近似的准确性差异,甚至超过使用预训练的先前现有技术的准确性,当模拟培训完全从头开始培训。此外,通过从目标域的每个类与目标域的一个标记示例提供模拟,我们通过SSDA设置,通过额外的6.1增加目标精度,并且用5个标记的示例,13.6。 |
Tiplines to Combat Misinformation on Encrypted Platforms: A Case Study of the 2019 Indian Election on WhatsApp Authors Ashkan Kazemi, Kiran Garimella, Gautam Kishore Shahi, Devin Gaffney, Scott A. Hale WhatsApp是一个全球超过20亿用户使用的受欢迎聊天应用程序。但是,由于结束到结束加密,目前没有简单的方法可以在ScaleSapp上检查内容。在本文中,我们分析了在WhatsApp上的人群源系统的有用性,用户可以提交包含他们想要检查的消息的提示。我们将发送到2019年印度全国选举中的WhatsApp Tipline运行的提示与在同一时期内的WhatsApp和其他社交媒体平台上的大型公共集团传播的信息。我们发现,Tiplines是一个非常有用的镜头,进入WhatsApp对话的大部分消息和图像发送到Tipline的图像和图像与在公共WhatsApp组和其他社交媒体上共享的内容。我们的分析还表明,Tiplines覆盖了最流行的内容,并且在出现大公共WhatsApp群体之前,大多数此类内容通常是分享到翻倍。总的来说,分析表明,Tiplines可以是发现内容以进行事实检查的有效源。 |
OODIn: An Optimised On-Device Inference Framework for Heterogeneous Mobile Devices Authors Stylianos I. Venieris, Ioannis Panopoulos, Iakovos S. Venieris 深度学习DL领域的激进进展导致了不同推理任务的前所未有的准确性。因此,在移动平台上部署DL模型对于下一代智能应用程序的开发和广泛可用性至关重要。然而,DL模型的广泛和优化的部署目前受到移动设备的广大系统异质性的阻碍,不同DL模型的不同计算成本和DL应用中的性能需求的可变性。本文提出了OODIN,该框架是在异构移动设备上进行了优化部署DL应用的框架。 OODIN包括一种新型DL特定软件体系结构,以及用于建模DL应用的分析框架,其通过高度参数化的多层设计和2对模型和系统级参数进行了原理优化的原因优化,实现了DL应用程序的分析框架。通过多目标配方,专为DL推理应用而设计,以便将部署调整到用户指定的性能要求和设备功能。定量评估表明,所提出的框架始终如一地优于异构设备的状态QUO设计,并分别提供高度优化平台和模型意识设计的高达4.3倍和3.5倍的性能增益,同时有效地调整了资源可用性的动态变化。 |
TED-net: Convolution-free T2T Vision Transformer-based Encoder-decoder Dilation network for Low-dose CT Denoising Authors Dayang Wang, Zhan Wu, Hengyong Yu 低剂量计算断层扫描是临床应用的主流。与正常剂量CT相比,在低剂量CT LDCT图像中,存在更强的噪音和更多的伪像,这是实际应用的障碍。在过去的几年里,基于卷积的结束到最终深度学习方法已被广泛用于LDCT图像去噪。最近,变压器在具有更多功能交互的卷积方面表现出卓越的性能。然而,它在LDCT去噪中的AP斑层尚未完全培养。在这里,我们提出了一种无卷积T2T视觉变压器基于编码器解码器扩张网工作TED网来丰富LDCT去噪算法的系列。该模型没有卷积块,包括带有唯一变压器的对称编码器解码器块。我们的模型在AAPM Mayo诊所LDCT Grand Challenge DataSet上进行了评估,结果表现出对现有的艺术发展方法的表现。 |
Densely connected normalizing flows Authors Matej Grci , Ivan Grubi i , Sini a egvi 归一化流量是输入和潜在表示之间的映射映射,具有完全分解的分布。由于精确的似然评估和有效的抽样,它们非常有吸引力。然而,由于杀硅约束限制了模型宽度,因此它们的有效容量通常不足。我们通过用噪音逐步填充中间表示来解决这个问题。我们根据先前可逆的单位预处理噪声,我们将其描述为交叉单元耦合。我们可逆发光,如模块,表达内部仿射耦合作为密集连接的块和NYSTR M自我关注的融合。我们将我们的架构引用为致密流,因为交叉单元和内部单元联轴器都依赖于密集的连接。实验表现出由于拟议的贡献而显着改善,并在适度计算预算下揭示所有生成模型中的最新密度估算的状态。 |
Self-Supervised Learning with Data Augmentations Provably Isolates Content from Style Authors Julius von K gelgen, Yash Sharma, Luigi Gresele, Wieland Brendel, Bernhard Sch lkopf, Michel Besserve, Francesco Locatello 自我监督的代表学习在许多领域中表现出显着的成功。常见做法是通过手工制作的转换进行数据增强,旨在离开数据不变的语义。我们试图从理论的角度来了解这种方法的经验成功。通过将潜像组件的分区假设到内容组件将潜像组件的分区假设为增强,将增强过程作为潜在变量模型制定为潜在变量模型,这是允许改变的不变性的。与事先有关解剖和独立分量分析的情况不同,我们允许在潜在空间中的非活动统计和因果依赖关系。我们研究了基于观察的视图的潜在表示的可识别性,并证明了足够的条件,使我们能够将不变内容分区识别到生成和识别设置中的可逆映射。我们发现具有依赖潜在变量的数值模拟与我们的理论一致。最后,我们介绍了CareAl3dident,一个高维,视觉复杂图像的数据集,具有丰富的因果依赖性,我们用于研究在实践中进行的数据增强的影响。 |
XIRL: Cross-embodiment Inverse Reinforcement Learning Authors Kevin Zakka, Andy Zeng, Pete Florence, Jonathan Tompson, Jeannette Bohg, Debidatta Dwibedi 我们调查了视觉横跨实施例的模仿设置,其中代理商学习来自其他代理的视频的政策,例如人类展示相同的任务,但在其实施例中具有缺点差异,在这项工作中,我们展示了在这项工作中的形状,动作,终末效应器动态等。从横跨实施例演示视频可以自动发现和学习基于视觉的奖励功能,这些视频对这些差异很强。具体地,我们介绍了一种用于横跨实施例的自我监督方法,其利用时间周期一致性约束来学习从多个专家代理的示范的脱机视频中捕获任务进展的深度视觉嵌入,每个都是由于实施例差异而不同地执行相同的任务。在我们的工作之前,从自我监督嵌入产生奖励通常需要与参考轨迹的对齐,这可能难以获取。我们凭经验表明,如果嵌入式了解任务进度,只需在学习的嵌入空间中占据当前状态和目标状态之间的负距离是有用的,这是对培训政策的培训政策。我们发现我们的学习奖励功能不仅适用于在训练期间看到的实施例,而且还推广到完全新的实施例。我们还发现,Xirl策略比基线更高效,并且在某些情况下,超过了与地面真理稀疏奖励的相同药剂的样本效率。 |
Chinese Abs From Machine Translation |