AI视野·今日CS.CV 计算机视觉论文速览
Wed, 19 May 2021
Totally 56 papers
👉上期速览✈更多精彩请移步主页
Daily Computer Vision Papers
Human Motion Prediction Using Manifold-Aware Wasserstein GAN Authors Baptiste Chopin, Naima Otberdout, Mohamed Daoudi, Angela Bartolo 人类运动预测旨在预测未来人类的姿势给出了先前的姿势序列。长期视野中预测运动的不连续性和性能恶化仍然是当前文献中遇到的主要挑战。在这项工作中,我们通过使用人类运动的紧凑歧管值表示来解决这些问题。具体而言,我们模拟了3D人类姿势作为轨迹的时间演变,允许我们将人类动作映射到球形歧管上的单点。为了了解这些非欧几里德表示,我们建立了一个歧管意识的Wasserstein生成的对抗模型,通过不同的损失捕获人类运动的时间和空间依赖性。广泛的实验表明,我们的方法优于CMU Mocap和人类3.6M数据集的现有技术。我们的定性结果表明了预测动作的平稳性。 |
Content Disentanglement for Semantically Consistent Synthetic-to-RealDomain Adaptation in Urban Traffic Scenes Authors Mert Keser, Artem Savkin, Federico Tombari 合成数据生成是一种吸引人的方法,可以在自动驾驶中生成新颖的交通方案。但是,完全培训的深度学习技术仅对合成数据遇到戏剧性的性能在实际数据上测试时滴滴。这种性能下降通常归因于实际和合成数据之间的域间隙。域适应方法已应用于减轻上述域间隙。这些方法实现了视觉上吸引人的结果,但翻译的样本通常会引入语义不一致。在这项工作中,我们提出了一个新的,无人监督的端域适应网络架构,其能够在合成和实际数据之间进行语义一致的域适应。我们在语义分割的下游任务上评估我们的架构,并表明我们的方法与现有技术的状态相比实现了卓越的性能。 |
Semi-Supervised Classification and Segmentation on High Resolution Aerial Images Authors Sahil Khose, Abhiraj Tiwari, Ankita Ghosh Foodnet是一个高级UAV平台,DJI Mavic Pro Quadcopters获取的高分辨率图像数据集,在Hurricane Harvey之后。数据集在使用未标记和有限标记的数据集推导灾后场景的损伤评估过程的独特挑战。我们提出解决方案来解决其分类和语义分割挑战。我们通过在训练期间为分类和分割生成伪标签并缓慢递增伪标签损失影响最终损失的金额来解决这个问题。使用此半监督培训方法帮助我们通过巨大的分类余量提高了基线监督损失,允许模型概括并更好地对数据集的验证和测试拆分进行更好。在本文中,我们对洪馨数据集上的图像分类和语义细分的各种方法和模型进行比较和对比。 |
IntFormer: Predicting pedestrian intention with the aid of the Transformer architecture Authors J. Lorenzo, I. Parra, M. A. Sotelo 了解行人交叉行为是智能车辆发展的重要目标,从而改善了他们的安全和交通流量。在本文中,我们开发了一种称为Interformer的方法。它基于变压器架构和名为Rubiksnet的新型卷积视频分类模型。在最近的基准中的评估程序之后,我们表明我们的模型达到了最先进的结果,性能良好的性能约为40 SEQ。每秒和大小比最佳性能模型小8倍,使其适合实时使用。我们还探讨了每个输入功能,发现EGO车速是最重要的变量,可能是由于饼图数据集交叉案例的相似性。 |
Assessing aesthetics of generated abstract images using correlation structure Authors Sina Khajehabdollahi, Georg Martius, Anna Levina 我们可以在没有自然或人类所选图像中产生抽象的美学图像,或者是人类所选图像,CORPI是在本文中的相关函数中被挑选的美学图像,我们向这些和更多问题提供了答案。我们使用具有随机权重和变化架构的组成模式产生网络生成图像。我们证明即使对于随机选择的权重,相关函数仍然很大程度上由网络架构确定。在受控实验中,人类受试者从所有生成图像的大型数据集中挑选了审美图像。统计分析表明,对于美学图像,相关函数确实不同。 |
SAIL-VOS 3D: A Synthetic Dataset and Baselines for Object Detection and 3D Mesh Reconstruction from Video Data Authors Yuan Ting Hu, Jiahong Wang, Raymond A. Yeh, Alexander G. Schwing 从视频数据中提取对象的详细信息是整体场景理解的重要目标。虽然最近的方法在从单个图像重建对象的网格时显示了令人印象深刻的结果,但结果通常保持模糊,因为该对象的一部分是不可观察的。此外,用于网格重建的现有图像数据集Don T允许研究集成时间信息的模型。为了缓解我们的担忧,我们呈现Sail VOS 3D,通过框架网格注释框架框架的综合视频数据集,其扩展了Sail Vos。我们还通过时间模型开发用于从视频数据重建3D网格的第一个基线。我们展示了所提出的基线对帆VIS 3D和PIX3D的功效,表明时间信息提高了重建质量。资源和其他信息可供选择 |
ACAE-REMIND for Online Continual Learning with Compressed Feature Replay Authors Kai Wang, Luis Herranz, Joost van de Weijer 在线持续学习旨在从许多不同任务中学习非IID数据流,其中学习者仅允许考虑一次数据。通常允许使用有限缓冲器存储流中的一些图像。最近,发现特征重放,其中存储或生成图像的中间层表示,而不是图像重放的卓越结果,同时需要较少的存储器。量化示例可以进一步降低存储器使用。然而,这些方法的缺点是它们使用固定或非常顽固的骨干网络。这显着限制了可以区分所有任务之间的陈述的学习。为了解决这个问题,我们提出了一个辅助分类器自动编码器ACAE模块,用于高压缩速率的中间层的特征重放。每张图像的降低的内存占用空间允许我们保存更多的示例以进行重播。在我们的实验中,我们在在线持续学习设置下进行任务不良评估,并在Imagenet子集中获取最新的艺术表现,CiFar100和CiFar10数据集。 |
Vision Transformer for Fast and Efficient Scene Text Recognition Authors Rowel Atienza 场景文本识别str使计算机能够在自然场景中读取文本,例如对象标签,道路标志和说明。 STR帮助机器执行明智的决策,例如挑选的对象,哪个方向,以及下一步行动。在STR的工作机构中,重点一直是识别准确性。很少强调速度和计算效率,这同样重要,特别是对于能量受限移动机器。在本文中,我们提出了一种具有简单的单级模型架构的Strstr,包括在计算和参数高效视觉变压器Vit上的简单单级模型架构。在比较强大的基线方法(如TRBA)等特点为84.3时,我们的小VIVSTR实现了82.6 84.2的竞争精度,数据增强速度为2.4倍的增速,仅使用参数的43.4个参数和42.2拖幅。 VITSTR的微小版实现了80.3精度82.1,数据增强,速度为2.5倍,只需要参数数量的10.9和11.9拖鞋。通过数据增强,我们的基础Vitstr在85.2精度83.7时占TRBA,而无需增强速度,但需要73.2个参数和61.5更多的拖力。在贸易票据方面,几乎所有的VITSTR配置都在边缘或附近的前沿,同时最大化精度,速度和计算效率。 |
Assessing bikeability with street view imagery and computer vision Authors Koichi Ito, Filip Biljecki 评估距离的研究通常计算成型循环条件的空间指标,并在定量指标中混合它们。许多研究涉及站点访问或传统地理空间方法,很少有研究杠杆化街景图像SVI进行虚拟审核。这些已经评估了有限的方面,并且并非所有使用计算机视觉CV都已自动化。此外,研究尚未归因于衡量这些技术的可用性。我们在精细空间规模和跨多个地理新加坡和东京进行实验,我们是否可以使用SVI和CV全面评估距离。延长相关的工作,我们开发了由34个指标组成的穷举性的平方指数。结果表明,SVI和CV足以全面评估城市的北极自行道。由于它们优于非SVI对应于广泛的边缘,因此也发现SVI指标在评估城市北徒可行性方面优越,并且可能可以独立使用,取代传统技术。但是,纸张暴露了一些限制,表明前进的最佳方式是组合SVI和非SVI方法。新的直接性指数呈现出交通和城市分析的贡献,它是可扩展的,以广泛评估骑自行车的吸引力。 |
Unsupervised identification of surgical robotic actions from small non homogeneous datasets Authors Daniele Meli, Paolo Fiorini 机器人辅助手术是一项既定的临床实践。一系列应用需要自动识别外科手术,包括对学员的性能评估和用于自主执行和监测的外科手术造型。然而,由于手动注释潜在复杂和长手术执行的录音的负担,监督措施是不可行的。此外,通常可以记录外科手术的示例执行。本文提出了一种新颖的算法,用于在标准外科训练任务中的外科手术识别识别,环路转移,由Da Vinci研究套件执行。利用运动和语义视觉功能自动从一个非常有限的执行数据集中提取,我们能够显着优于相似应用的最新状态,提高分割88与82匹配分数和聚类67对54的质量。即使在存在噪声,短暂的动作和非均匀工作流的存在下也是分数,即非重复动作序列。具有标准商业规范的硬件上的全动作识别在不到1秒内执行单执行。 |
Overparametrization of HyperNetworks at Fixed FLOP-Count Enables Fast Neural Image Enhancement Authors Lorenz K. Muller 深度卷积神经网络可以增强用小型移动摄像机传感器拍摄的图像,并在Demoisaicing,去噪和超级分辨率等任务中擅长。但是,对于移动设备的实际应用,这些网络通常需要太多拖鞋并减少卷积层的絮凝,也降低了其参数计数。鉴于最近发现参数化神经网络的最近发现,这通常是有问题的,这通常是概遍的那些。在本文中,我们建议使用HyperNetworks打破标准卷积参数的固定比率。这允许我们超过先前的SSIM和MS SSIM在Zurich RAW上的最先前状态,以10倍降低的拖动计数。在Zrr上,我们进一步观察到在大图像限制的固定翻转计数中与双触觉行为一致的概括曲线。最后,我们展示了相同的技术可以应用于现有网络VDN以降低其计算成本,同时在智能手机图像去噪数据集SIDD上保持保真度。关键函数的代码在附录中给出。 |
Progressively Normalized Self-Attention Network for Video Polyp Segmentation Authors Ge Peng Ji, Yu Cheng Chou, Deng Ping Fan, Geng Chen, Huazhu Fu, Debesh Jha, Ling Shao 现有的视频息肉分割VPS模型通常采用卷积神经网络CNN来提取特征。然而,由于其接收领域有限,CNN不能在连续的视频帧中完全利用全局时间和空间信息,从而导致错误的正分割结果。在本文中,我们提出了新的PNS净净逐步规范化的自我注意网络,可以在单个RTX 2080 GPU上的实时速度140FPS有效地从息肉视频中学习表示。我们的PNS网络仅基于基本标准化的自我注意力块,完全配备重复和CNNS。关于挑战VPS数据集的实验表明,所提出的PNS网络实现了最新的性能。我们还开展了广泛的实验,以研究渠道分裂,软关注和渐进式学习策略的有效性。我们发现我们的PNS网络在不同的设置下运作良好,使其成为VPS任务的有希望的解决方案。 |
Unsupervised Compound Domain Adaptation for Face Anti-Spoofing Authors Ankush Panwar, Pratyush Singh, Suman Saha, Danda Pani Paudel, Luc Van Gool 我们解决了面部反欺人的问题,旨在使面部验证系统在现实世界环境中进行强大。当与培训模型训练的标记源域的源域时,检测活Vs的上下文可以在目标域中显着差异。由于新的和未知的欺骗类型,照明条件,场景背景,其中许多其他人,可能会引起这种差异。这些不同的差异使得靶成为化合物结构域,因此呼吁未经监督的复合域适应的问题。我们在这项工作中首次展示了对面部反欺骗的任务的复合域假设的有效性。为此,我们提出了一种以域名感知方式将源模型适应目标域的存储器增强方法。通过使用课程学习和域不可知源网络训练方法,进一步改善了适应过程。所提出的方法成功地适应了复合目标域,包括多种新的欺骗类型。我们对多个基准数据集的实验证明了在最先进的方法中提出的方法的优越性。 |
Deep Active Contours Using Locally Controlled Distance Vector Flow Authors Parastoo Akbari, Atefeh Ziaei, Hamed Azarnoush Active Contours Model ACM已广泛用于计算机视觉和图像处理。在最近的研究中,卷积神经网络CNNS已经与替换用户在轮廓演化和图像分割过程中的主动轮廓组合,以消除与ACM S依赖于能量功能和初始化的参数相关的限制。但是,事先作品并未瞄准此处已解决的自动初始化。除了手动初始化外,当前方法对初始位置非常敏感,无法准确描绘边界。除了能量功能参数的问题之外,我们提出了一种全自动图像分割方法,解决了手动初始化,捕获范围不足,捕获范围不足和收敛不足的问题。我们训练两个CNN,预测有效轮廓加权参数,并产生地面真理掩模以提取距离变换DT和初始化圆。距离变换用于形成从图像的每个像素朝向边界上的最近点指向的矢量字段,其大小等于欧几里德距离图。我们在四个公开可用数据集中评估我们的方法,包括两个建筑实例分段数据集,Vaihingen和Bing小区,以及两个乳房摄影图像数据集,Anbrest和DDSM BCRP。我们的方法优于最新的研究0.59英寸的2.59英寸的平均交叉口,7.38和8.62%,分别为Vaihingen和Bing Huts Datasets的边界F得分突破。骰子相似性系数对于挤压和DDSM BCRP数据集是94.23和90.89,分别表明我们的方法与艺术框架的状态相当。 |
Improved detection of small objects in road network sequences Authors Iv n Garc a, Rafael Marcos Luque, Ezequiel L pez 当前道路网络中的大量现有IP摄像机是利用捕获数据并分析视频并检测任何重要事件的机会。为此目的,有必要检测移动车辆,这是在几年前使用经典人工视觉技术进行的任务。如今,深入学习网络已经获得了重大改进。仍然,对象检测被认为是计算机视觉中的主要开放问题之一。 |
I2C2W: Image-to-Character-to-Word Transformers for Accurate Scene Text Recognition Authors Chuhui Xue, Shijian Lu, Song Bai, Wenqing Zhang, Changhu Wang 利用自然语言处理的进步,大多数最近的场景识别器采用编码器解码器架构,其中文本图像首先转换为代表特征,然后通过直接解码转换为代表性特征,然后是一系列字符。然而,场景文本图像遭受不同来源的丰富噪声,例如复杂的背景和几何失真,这通常会使解码器混淆并导致嘈杂的解码时间步骤中的视觉特征的不正确对准。本文介绍了I2C2W,这是一种新颖的场景文本识别器,可以准确和宽容在场景中的各种噪声。 I2C2W由对字符模块I2C的图像和字符组成,以及Word模块C2W的字符,该字符C2W是互补的,并且可以训练结束结束。 I2C检测字符并以单词预测其相对位置。它努力通过在没有限制时间步骤的情况下,检测基于视觉特征的不同对齐的所有可能的字符,包括不正确和冗余的字符。将检测到的字符作为输入,C2W从字符语义和其位置学习以筛选不正确和冗余的检测并产生最终的单词识别。 7个公共数据集的广泛实验表明,I2C2W在挑战不规则场景文本数据集中实现了卓越的识别性能,优于艺术状态,而优于挑战性的场景文本数据集。 |
Exemplar-Based Open-Set Panoptic Segmentation Network Authors Jaedong Hwang, Seoung Wug Oh, Joon Young Lee, Bohyung Han 我们将Panoptic Segsation扩展到开放世界,并引入开放式Panoptic Segmentation OPS任务。此任务需要为不仅为已知类进行Panoptic Segsitation,而且还需要在培训期间未经承认的未知组。我们调查了任务的实际挑战,并在现有数据集中的顶部构建基准测试,Coco。此外,我们提出了一种由示例性理论的新颖的基于示例的开放式Panoptic分段网络Eopsn。我们的方法基于示例标识了一个新的类,这些类是通过聚类和雇用作为伪基础的真理来识别的。每个类的大小通过基于与与类相关联的现有的相似性来挖掘新示例来增加。我们在拟议的基准上评估EOPSN并展示我们提案的有效性。我们工作的主要目标是引起社区的注意力在开放世界情景中的认可。我们的算法的实施是在项目网页上提供的 |
Exploring Driving-aware Salient Object Detection via Knowledge Transfer Authors Jinming Su, Changqun Xia, Jia Li 最近,普遍突出物体检测SOD在深神经网络的快速发展方面取得了巨大进展。但是,由于缺少任务特定数据集,难以研究任务意识SOD。在本文中,我们构建一个驾驶任务导向数据集,其中突出对象的像素级别掩模已经注释。与通用SOD数据集相比,我们发现跨域知识差异和任务特定场景差距是在驾驶时聚焦突出物体的两个主要挑战。灵感来自这些调查结果,我们提出了通过知识转移卷积神经网络的驾驶任务意识草皮的基线模型。在这个网络中,我们构建了一个关注的知识转移模块来构成知识差异。另外,引入有效的边界意识特征解码模块,以对复杂任务特定场景中的对象执行精细特征解码。整个网络以逐步方式集成了知识传输和特征解码模块。实验表明,所提出的数据集是非常具有挑战性的,所提出的方法优于数据集上的第12条现有方法的状态,这有助于开发任务意识草皮。 |
NExT-QA:Next Phase of Question-Answering to Explaining Temporal Actions Authors Junbin Xiao, Xindi Shang, Angela Yao, Tat Seng Chua 我们介绍下一个QA,一个严格设计的视频问题,回答VideoQA基准测试,以推进视频理解,从而介绍用于解释时间动作。基于数据集,我们建立了多项选择和开放结束的QA任务,针对因果动作推理,时间动作推理和共同的场景理解。通过对基线的广泛分析和建立的视频仪技术,我们发现顶部表演方法在浅场描述中擅长,但在因果和时间动作推理中是薄弱的。此外,在适应开放结束的QA时对多选择QA有效的模型仍然在概括答案时挣扎。这提出了对这些模型的能力的怀疑,并突出了改进的可能性。对于未来作品的不同问题类型和启发式观测的详细结果,我们希望下一个QA将指导下一代VQA研究,以超越浅表的场景描述,以更深入地了解视频。数据集和相关资源可用 |
Finding a Needle in a Haystack: Tiny Flying Object Detection in 4K Videos using a Joint Detection-and-Tracking Approach Authors Ryota Yoshihashi, Rei Kawakami, Shaodi You, Tu Tuan Trinh, Makoto Iida, Takeshi Naemura 在高分辨率视频中检测到微小对象是具有挑战性的,因为视觉信息很小而不可靠。具体地,挑战包括对物体的极低分辨率,由于压缩而具有许多硬质否定的大型搜索区域的极低分辨率。由于外观和不可靠的运动估计,跟踪同样困难。幸运的是,我们发现通过将这两个具有挑战性的任务结合在一起,将会有相互效益。在此思想之后,在本文中,我们介绍了一种称为经常性相关网络的神经网络模型,其中通过单个,可训练和端到端网络通过多帧表示共同执行检测和跟踪。该框架利用卷积的长短期内存网络,用于学习检测的信息变化,而学习的表示是在跟踪中共享以提高其性能。在实验中,在包含具有小型飞行物体的场景图像的数据集中,例如鸟类和无人驾驶飞行器,所提出的方法在深度单帧检测器和现有运动的检测器上产生了一致的检测性能。此外,当在鸟图像数据集上被评估为跟踪器时,我们的网络执行以及艺术通用对象跟踪器的状态。 |
Weakly Supervised Dense Video Captioning via Jointly Usage of Knowledge Distillation and Cross-modal Matching Authors Bofeng Wu, Guocheng Niu, Jun Yu, Xinyan Xiao, Jian Zhang, Hua Wu 本文提出了一种在没有成对事件句子注释的情况下致密视频标题DVC的方法。首先,我们采用了从相关和良好解决的任务中蒸馏出的知识来产生高质量的事件提案。然后,我们纳入了对比损失和循环一致性损失,通常应用于跨越模态检索任务,以在提案和句子之间构建语义匹配,最终用于训练字幕生成模块。此外,基于注释图像的预训练初始化匹配模块的参数,以提高匹配性能。关于ActivityNet标题数据集的广泛实验揭示了基于蒸馏的事件提案生成和跨模型检索的语义匹配与弱监督DVC的重要性,并证明了我们对现有技术的现有状态的方法的优越性。 |
Self-Point-Flow: Self-Supervised Scene Flow Estimation from Point Clouds with Optimal Transport and Random Walk Authors Ruibo Li, Guosheng Lin, Lihua Xie 由于注释的场景流量数据的稀缺性,点云中的自我监督场景流动已经吸引了越来越多的关注。在自我监督的方式中,建立两个点云之间的对应关系到近似场景流是一种有效的方法。以前的方法通常通过应用点明智匹配来获得对应关系,只需将3D点坐标坐在考虑到的距离,引入了两个关键问题1,它忽略了其他辨别措施,例如颜色和表面正常,这通常会带来富有成效的线索和2它通常会产生子分析性能,因为匹配在不受约束的情况下运行,其中多个点可以以相同的对应点结束。为了解决问题,我们将此匹配任务制订为最佳运输问题。输出最佳分配矩阵可用于指导伪原理事实的生成。在这种最佳运输中,我们通过考虑多个描述符来设计传输成本,并鼓励一个由质量平等约束的一个匹配。此外,在点上构建图表,引入了随机步行模块,以鼓励伪标签的局部一致性。 Flyingthings3D和Kitti的综合实验表明,我们的方法在自我监督的学习方法中实现了最新性能的状态。我们的自我监督方法甚至与一些受监督的学习方法相提并论,尽管我们不需要任何基础的真相训练。 |
Towards Unsupervised Sketch-based Image Retrieval Authors Conghui Hu, Yongxin Yang, Yunpeng Li, Timothy M. Hospedales, Yi Zhe Song 目前监督的基于草图的图像检索SBIR方法实现了出色的性能。然而,数据收集和标签的成本对实际应用的实际部署施加了棘手的障碍。在本文中,我们展示了无监督的SBIR的第一次尝试,以删除培训常规所需的标签成本类别注释和草图照片配对。由于问题的独特跨域素描和照片本质,现有的单域无监督的表示学习方法在本申请中表现不佳。因此,我们介绍了一种新颖的框架,同时执行无监督的表示学习和草图照片域对齐。从技术上讲,这是通过利用联合分布最佳运输jDot基础,以在代表学习期间将数据与不同域的数据对齐,我们与可训练的集群原型延伸,并具有内存库,以进一步提高可扩展性和功效。广泛的实验表明,我们的框架在新的无监督环境中实现了出色的性能,并且比零拍摄设置中的最先进的艺术状态相对或更好地执行。 |
Single View Geocentric Pose in the Wild Authors Gordon Christie, Kevin Foster, Shea Hagstrom, Gregory D. Hager, Myron Z. Brown 当前用于地球观测任务的方法,如语义映射,地图对齐和改变检测依赖于Nadir图像附近的,但是,通常是最初可用的图像,响应于自然灾害等动态世界事件是倾斜的。由于观察到的对象视差导致,这些任务更困难。最近在学习中,在学习中,以在登记到卫星图像的空中激光器的训练,在地下度姿势中,定义为地下度姿势,定义为地上的高度和方向,通过训练。我们为这项新颖任务提供了一种模型,可利用仿佛不变性属性以广泛的余量来倾销最优异的现有状态。我们还解决了在野外为现实世界应用程序部署此方法所需的实际问题。我们的数据和代码公开可用。 |
Decorating Your Own Bedroom: Locally Controlling Image Generation with Generative Adversarial Networks Authors Chen Zhang, Yinghao Xu, Yujun Shen 生成的对抗网络GAN在综合高质量图像方面取得了巨大成功。但是,如何转向训练有素的GaN模型的生成过程并自定义输出图像远远较少。最近发现调制GAN中使用的输入潜在代码可以合理地改变输出图像中的一些变化因子,但是这种操作通常是作为整体的整个图像改变整个图像。在这项工作中,我们提出了一种称为Logan的有效方法,以支持输出图像的本地编辑。具体地,我们介绍了两个操作员,即内容调制和样式调制,以及优先掩码,以便于精确控制中间生成功能。乘坐卧室综合作为一个实例,我们能够无缝地拆下,插入,换档和旋转房间内的各个物体。此外,我们的方法可以完全清除一个房间,然后用定制的家具和风格来装饰它。实验结果表明,对多功能图像编辑的预训练GAN的图像产生的巨大潜力。 |
Reinforcement Learning for Adaptive Video Compressive Sensing Authors Sidi Lu, Xin Yuan, Aggelos K Katsaggelos, Weisong Shi 我们将加固学习应用于视频压缩感测以适应压缩比。具体地,在该工作中考虑了使用低速摄像机捕获高速视频的视频快照压缩成像SCI,其中可以从快照测量重建多个B视频帧。先前研究中的一个研究差距是如何在视频SCI系统中适应不同的场景。在本文中,我们利用钢筋学习RL填补了这种差距。 RL模型以及各种用于重建的卷积神经网络,以实现视频SCI系统的自适应感测。此外,还使用基于R1的自适应视频压缩感测来使用直接使用无需重建的视频SCI测量对象检测网络的性能。因此,我们所提出的自适应SCI方法可以以低成本和实时实现。我们的工作进一步迈向视频SCI的实际应用。 |
Physically Plausible Pose Refinement using Fully Differentiable Forces Authors Akarsh Kumar 1 , Aditya R. Vaidya 1 , Alexander G. Huth 1 1 The University of Texas at Austin 所有手对象交互都是由两个身体互相施加的力量的力量,但在从RGB RGB D数据进行姿势和接触估计时,在建模这些潜在的力时已经完成了很少的工作。鉴于从任何姿势估计系统的手和对象的姿势,我们提出了结束到最终可分辨性模型,通过学习其网格中每个顶点处的对象所经历的力来改进姿势估计。通过将学习的净力与基于有限差异的净力估计,该模型能够找到准确描述物体运动的力,同时解决网格互通和缺乏接触等问题。在CollectOnty DataSet上评估,我们显示此模型成功纠正了姿势并查找更好地匹配地面真理的联系地图,尽管没有使用任何RGB或深度图像数据。 |
Visual FUDGE: Form Understanding via Dynamic Graph Editing Authors Brian Davis, Bryan Morse , Brian Price , Chris Tensmeyer , Curtis Wiginton 我们解决了形式理解的问题,以便在形式图像中的关系中的关系链接。该拟议的软化模型在文本元素的图表上制定了该问题的顶点,并使用图形卷积网络来预测图形的变化。初始顶点被检测到文本线,并且不一定对应于最终文本实体,其可以跨越多行。此外,初始边缘包含许多假阳性关系。软件通过将文本段图形顶点和修剪边缘以迭代方式组合来编辑图形结构,以获得最终的文本实体和关系。虽然这一领域的最近工作集中在利用大规模预训练的语言模型LM,但是融合通过学习小型提供的训练集中的视觉特征来实现与Funsd DataSet上的实体相同的实体级别。软糖可以应用于文本识别的形式难以实现。在预训练此类LMS具有挑战性的情况下,降级或历史形式和资源差的形式。软糖是历史NAF数据集的最先进。 |
Graph Neural Networks for Knowledge Enhanced Visual Representation of Paintings Authors Athanasios Efthymiou, Stevan Rudinac, Monika Kackovic, Marcel Worring, Nachoem Wijnberg 我们提出artsagenet,这是一种集成图形神经网络GNN和卷积神经网络CNN的新型多模式架构,共同学习基于视觉和语义的艺术表示。首先,我们说明了File Art Action的多任务学习的显着优势,并争辩说,在概念上是在美术领域比单个任务替代品更合适的设置。我们进一步证明,几个GNN架构可以在一系列美术分析任务中优于强大的CNN基线,例如风格分类,艺术家归因,创建期估计和标签预测,同时训练它们需要较少的计算时间阶数左右少量标记数据。最后,通过广泛的实验,我们表明我们所提出的ArtsAgenet捕获并编码艺术家和艺术品之间的有价值的关系依赖,超越了传统方法的性能,这些方法仅依赖于视觉内容的分析。我们的研究结果强调了整合视觉内容和语义进行美术分析和策策的巨大潜力。 |
Deep Metric Learning for Few-Shot Image Classification: A Selective Review Authors Xiaoxu Li, Xiaochen Yang, Zhanyu Ma, Jing Hao Xue 很少有镜头图像分类是一个具有挑战性的问题,旨在仅基于少量图像实现人类的识别程度。最近采用了诸如META学习,转移学习和度量学习的深度学习算法,并实现了最先进的性能。在本调查中,我们审查了几次拍摄分类的代表性深度度量学习方法,并根据他们专注于的主要问题和新奇特,将它们分为三组。我们在讨论目前挑战和未来趋势的讨论下,我们结束了众所周知的审查。 |
VPN++: Rethinking Video-Pose embeddings for understanding Activities of Daily Living Authors Srijan Das, Rui Dai, Di Yang, Francois Bremond 许多尝试已经朝着结合RGB和3D构成来识别日常生活ADL的活动。 ADL可能看起来非常相似,并且通常需要模拟细粒细节以区分它们。因为近期的3D Councnets太硬而无法在动作中捕获微妙的视觉模式,所以这项研究方向是通过组合RGB和3D摆姿势的方法主导的。但是,在没有适当的传感器的情况下,从RGB流计算3D姿势的成本很高。这限制了需要低延迟的现实世界应用中上述方法的使用。然后,如何最好地利用3D姿势来识别ADL到此,我们提出了一个姿势驱动的注意机制视频姿势网络VPN的扩展,探索了两个不同的方向。一个是通过特征级蒸馏将构成知识转移到RGB中,另一个通过注意水平蒸馏来模仿姿势驱动的注意力。最后,这两种方法都集成到一个模型中,我们调用VPN。我们表明VPN不仅有效,而且还提供了高速增长和高弹性来嘈杂的姿势。 VPN,带有或没有3D姿势的VPN,优于4个公共数据集上的代表性基准。代码可用 |
PixMatch: Unsupervised Domain Adaptation via Pixelwise Consistency Training Authors Luke Melas Kyriazi, Arjun K. Manrai 无监督的域适应是用于语义分割和其他计算机视觉任务的有希望的技术,其中大规模数据注释是昂贵且耗时的。在语义分割中,它具有从模拟源域中培训在注释图像上的模型,并在真实目标域上部署它们。在这项工作中,我们为基于目标域一致性培训的概念提出了一种用于无监督域适应的新框架。直观地,我们的作品基于这样的想法,为了在目标域上执行良好,模型S输出应该一致地相对于目标域中输入的小扰动。具体地,我们介绍了一种新的损失术语,以在目标图像上的模型S预测和相同图像的扰动版本之间强制实施模型S预测之间的像素一致性。与流行的对冲自适应方法相比,我们的方法更简单,更容易实现,并且在训练期间更高的内存有效。实验和广泛的消融研究表明,我们的简单方法对真正的基准,GTA5与城市景观的两个具有挑战性的合成来实现了显着强劲的结果。 |
Finding an Unsupervised Image Segmenter in Each of Your Deep Generative Models Authors Luke Melas Kyriazi, Christian Rupprecht, Iro Laina, Andrea Vedaldi 最近的研究表明,在GAN的潜在空间中存在许多人类可解释的方向。在本文中,我们开发了一种用于查找导致前景背景图像分离的方向的自动程序,并且我们使用这些方向培训没有人类监督的图像分段模型。我们的方法是发电机不可知论,产生强大的细分结果,具有各种不同的GAN架构。此外,通过利用在大型数据集上的诸如想象网的大型数据集上的GAN,我们能够在没有进一步训练或芬特的情况下从一系列域分段图像。评估我们在图像分割基准上的方法,我们对先前的工作相比,使用人类监督或访问培训数据。广泛地,我们的结果表明,自动提取从预磨料的深度生成模型中提取前景背景结构可以作为人类监督的显着替代品。 |
Fighting Gradients with Gradients: Dynamic Defenses against Adversarial Attacks Authors Dequan Wang, An Ju, Evan Shelhamer, David Wagner, Trevor Darrell 对抗性攻击优化了模型来破坏防御。现有的防御是静态的,并且一旦攻击发生变化,即使训练也会保持同样的训练。我们认为模型应该反击,并在考试时间的攻击中优化他们的防御。我们提出动态防御,通过防御熵最小化凹陷来调整模型和输入。凹陷改变测试,但没有培训,以与现有模型和火车时间防御兼容。凹陷改善了对抗训练有素的防御和标称训练模型对白盒,黑匣子和Cifar 10 100和Imagenet的自适应攻击的鲁棒性。特别地,在epsilon infty 8 255的CiFar 10上通过20分来通过20点绝对地提高艺术防御的状态。 |
Image Cropping on Twitter: Fairness Metrics, their Limitations, and the Importance of Representation, Design, and Agency Authors Kyra Yee, Uthaipon Tantipongpipat, Shubhanshu Mishra Twitter使用机器学习来裁剪图像,其中作物以预测为最突出的部分。在2020年代,Twitter用户提出了担忧,即Twitter上的自动图像裁剪系统在深色皮肤的个人上呈现出皮肤的灯,以及该系统对播种女性的身体而不是头部的担忧。为了解决这些问题,我们使用正式的集团公平度量进行了广泛的分析。我们在裁剪和识别贡献因素时发现系统的差异,包括基于单个最突出点的种植可以放大差异的事实。然而,我们证明了形式化的公平度量和对自己的定量分析不足以捕获自动裁剪中的代表危害的风险。我们建议删除显着的种植,以支持更好地保留用户机构的解决方案。为了开发一种充分解决与代表性危害相关的疑虑的新解决方案,我们的批评激励了包括人为中心设计的定量和定性方法的组合。 |
A multimodal deep learning framework for scalable content based visual media retrieval Authors Ambareesh Ravi, Amith Nandakumar 我们通过利用深度学习的力量来提出基于内容的视觉媒体检索系统的新颖,高效,模块化和可扩展的框架,这是灵活的,这对于图像和视频都合作,我们还引入了一个有效的比较和过滤度量来检索。我们提出了从关键性能测试中的调查结果将我们的方法与主要的传统方法进行比较,以展示所提出的解决方案的可行性和效率以及最佳实践,可能的改进可能进一步增强检索架构的能力。 |
Fast and Accurate Single-Image Depth Estimation on Mobile Devices, Mobile AI 2021 Challenge: Report Authors Andrey Ignatov, Grigory Malivenko, David Plowman, Samarth Shukla, Radu Timofte, Ziyu Zhang, Yicheng Wang, Zilong Huang, Guozhong Luo, Gang Yu, Bin Fu, Yiran Wang, Xingyi Li, Min Shi, Ke Xian, Zhiguo Cao, Jin Hua Du, Pei Lin Wu, Chao Ge, Jiaoyang Yao, Fangwen Tu, Bo Li, Jung Eun Yoo, Kwanggyoon Seo, Jialei Xu, Zhenyu Li, Xianming Liu, Junjun Jiang, Wei Chi Chen, Shayan Joya, Huanhuan Fan, Zhaobing Kang, Ang Li, Tianpeng Feng, Yang Liu, Chuannan Sheng, Jian Yin, Fausto T. Benavide 深度估计是对移动设备的许多实际应用的重要计算机视觉问题。虽然已经为此任务提出了许多解决方案,但它们通常非常昂贵,因此不适用于设备推断。为了解决这个问题,我们介绍了第一个移动AI挑战,其中目标是开发一个结束以结束基于深度学习的深度估计解决方案,可以在智能手机和物联网平台上展示几乎实时性能。为此,参与者提供了一个包含RGB深度图像对的新型大规模数据集,该对具有专用立体声ZED摄像头的RGB深度图像对,该相机产生高达50米的物体的高分辨率深度图。所有模型的运行时间都在流行的Raspberry PI 4平台上进行了基于移动臂的Broadcom芯片组。所提出的解决方案可以在覆盆子PI 4上产生高达10个FPS的VGA分辨率深度映射,同时实现高保真效果,并且与任何基于Android或基于Linux的移动设备兼容。本文提供了在挑战中开发的所有模型的详细描述。 |
Fast Camera Image Denoising on Mobile GPUs with Deep Learning, Mobile AI 2021 Challenge: Report Authors Andrey Ignatov, Kim Byeoung su, Radu Timofte, Angeline Pouget, Fenglong Song, Cheng Li, Shuai Xiao, Zhongqian Fu, Matteo Maggioni, Yibin Huang, Shen Cheng, Xin Lu, Yifeng Zhou, Liangyu Chen, Donghao Liu, Xiangyu Zhang, Haoqiang Fan, Jian Sun, Shuaicheng Liu, Minsu Kwon, Myungje Lee, Jaeyoon Yoo, Changbeom Kang, Shinjo Wang, Bin Huang, Tianbao Zhou, Shuai Liu, Lei Lei, Chaoyu Feng, Liguang Huang, Zhikun Lei, Feifei Chen 图像去噪是移动照片处理中最关键的问题之一。虽然已经为此任务提出了许多解决方案,但它们通常使用合成数据,并且在移动设备上运行太昂贵。为了解决这个问题,我们介绍了第一个移动AI挑战,其中目标是开发一端以结束基于深度学习的图像去噪解决方案,可以在智能手机GPU上展示高效率。为此,参与者提供了一种小型大规模数据集,包括在野外捕获的嘈杂的清洁图像对。所有型号的运行时间都是在三星Exynos 2100芯片组上进行评估,具有能够加速浮点和量化神经网络的强大马利GPU。所提出的解决方案与任何移动GPU完全兼容,并且能够在实现高保真结果的同时在40ps下处理480p分辨率图像。本文提供了在挑战中开发的所有模型的详细描述。 |
Detecting Adversarial Examples with Bayesian Neural Network Authors Yao Li, Tongyi Tang, Cho Jui Hsieh, Thomas C. M. Lee 深度神经网络DNNS易受抗逆性示例,即被仔细制作以欺骗DNN的实例,同时与人类难以区分。在本文中,我们提出了一种新的框架来探测通过观察结果激励的对抗性示例,随机分量可以提高预测器的平滑度并使更容易模拟深神经网络的输出分布。通过这些观察,我们提出了一种新颖的贝叶斯对抗性示例探测器,用于抗体的短,以提高对抗性示例检测的性能。具体而言,我们研究了自然和普发的例子之间的隐性层输出的分布差异,并建议使用贝叶斯神经网络BNN的随机性来模拟隐藏层输出分布并利用分布分散来检测对抗性示例。 BNN的优点是输出是随机的,而无随机部件的神经网络没有这样的特性。对若干基准数据集对抗流行攻击的经验结果表明,所提出的竞争者在普发的示例检测中优于现有技术的状态。 |
Shape Analysis of Functional Data with Elastic Partial Matching Authors Darshan Bryner, Anuj Srivastava 过去的统计处理功能和曲线形状数据的统计处理已成功使用弹性黎曼指标。然而,这种用法遭受了一个重要的限制,函数边界被认为是固定和匹配的。表现出无与伦比的边界的功能数据通常来自具有可变演化率的动态系统,例如与不同地理区域相关的Covid 19感染率曲线。在这种情况下,模拟具有滑移边界的这些数据更自然,并且使用部分匹配,即,仅函数的一部分与另一个函数匹配。在这里,我们开发了一个全面的riemananian框架,允许在相变性和不确定的边界下部分匹配,比较和聚类功能。我们将过去的工作延长1,形成了时代翘曲和时间缩放组2的联合作用,它引入了不变于这种联合动作的指标,允许基于梯度的偏离部分匹配和3呈现修改的方法,同时丢失度量标准属性,允许一个控制两组的相对影响。该框架示出了Covid 19速率曲线的注册和聚类形状,识别必要的模式,最小化错配误差,与先前的方法相比,降低了集群内的变化。 |
UncertaintyFuseNet: Robust Uncertainty-aware Hierarchical Feature Fusion with Ensemble Monte Carlo Dropout for COVID-19 Detection Authors Moloud Abdar, Soorena Salari, Sina Qahremani, Hak Keung Lam, Fakhri Karray, Sadiq Hussain, Abbas Khosravi, U. Rajendra Acharya, Saeid Nahavandi 2019年Covid 19冠状病毒疾病感染了超过1.51亿人,并在世界各地造成约317万人死亡。 Covid 19的快速传播仍在继续威胁人类的生命和健康。因此,基于机器和深层学习方法的计算机辅助检测CAD系统的开发能够使用胸部计算断层扫描CT和X射线数据集从其他疾病准确地区分Covid 19,这是必不可少的并且直接优先级。与使用CT或X射线图像中的任何一个使用中的大多数研究的不同,我们都使用了两种数据类型的实施方式。另一方面,由于这种普华病毒的极端敏感性,应考虑模型不确定性,而最前面的研究已经忽略了它。因此,我们提出了一种名为UncertaintyfuseNet的新型强大的融合模型,包括不确定性模块集合蒙特卡洛EMC辍学。所获得的结果证明了我们使用CT扫描和X射线数据集进行了Covid 19检测的融合的有效性。此外,我们提出的不确定性福斯模型对于噪声显着强大,并且与先前的未见数据进行良好。本研究的源代码和模型可用 |
Contrastive Model Inversion for Data-Free Knowledge Distillation Authors Gongfan Fang, Jie Song, Xinchao Wang, Chengchao Shen, Xingen Wang, Mingli Song 模型反转,其目标是从预训练的模型中恢复训练数据,最近已经证明是可行的。然而,现有的反转方法通常遭受模式崩溃问题,其中合成的实例彼此高度相似,因此对下游任务显示有限的有效性,例如知识蒸馏。在本文中,我们提出了对比模型反演CMI,其中数据分集明确建模为可优化的目标,以减轻模式崩溃问题。我们的主要观察是,在相同数量的数据的约束下,更高的数据分集通常表示更强的实例歧视。为此,我们在CMI中介绍了一种对比的学习目标,鼓励合成实例以在先前批次中的已经合成的那些中区分开来。 CIFAR 10,CiFar 100和微小想象节的预训练模型的实验表明CMI不仅产生比领域的状态更具视觉似品的情况,而且在所产生的数据用于知识蒸馏时也实现了显着优越的性能。 URL可提供代码 |
Dependent Multi-Task Learning with Causal Intervention for Image Captioning Authors Wenqing Chen, Jidong Tian, Caoyun Fan, Hao He, Yaohui Jin 最近的图像标题的工作主要遵循提取物然后生成范例,预先提取基于对象的特征序列,然后将图像标题作为单个序列制定为序列任务。虽然有希望,我们在生成的标题中观察到了两个问题1内容不一致,其中模型会产生与矛盾的事实2不提供足够的信息,其中模型将错过任何重要信息的部分。从因果角度来看,原因是模型已经捕获了视觉特征与某些表达之间的虚假统计相关性,例如,长发和女人的视觉特征。在本文中,我们提出了一种与因果干预DMTCI的依赖多任务学习框架。首先,我们涉及一个中间任务,一系列类别,在最终任务之前,图像标题。中间任务将帮助模型更好地理解视觉功能,从而减轻内容不一致问题。其次,我们在模型上申请珍珠s做微积分,切断视觉特征和可能的混音之间的联系,从而让模型关注因果视觉特征。具体地,高频概念集被认为是在连续空间中推断出真实混杂者的代理混杂器。最后,我们使用一个多代理强化学习MARL策略来实现结束到终训练,并减少任务间错误累积。广泛的实验表明,我们的模型优于基线模型,并实现了艺术模式的竞争性能。 |
COVID-19 Detection in Computed Tomography Images with 2D and 3D Approaches Authors Sara Atito Ali Ahmed, Mehmet Can Yavuz, Mehmet Umut Sen, Fatih Gulsen, Onur Tutar, Bora Korkmazer, Cesur Samanci, Sabri Sirolu, Rauf Hamid, Ali Ergun Eryurekli, Toghrul Mammadov, Berrin Yanikoglu 已经提出了检测计算机断层摄影CT或射线照相图像中的COVID 19作为确定的RT PCR测试的补充。我们介绍了一种用于检测Covid 19感染的深度学习集合,基于切片的基于2D和基于体积的3D方法。 2D系统独立地检测每个CT片上的感染,组合它们通过不同方法获得患者水平决定平均和长期内存网络。 3D系统将整个CT音量达到一步到达患者水平的决定。在这项工作中也收集了一个名为IST C DataSet的新的高分辨率胸部CT扫描数据集。拟议的集合,称为IST COVNET,在IST C DataSet上获得90.80的精度和0.95 AUC分数在ist c dataset中,在正常对照和其他类型的肺部病理中检测Covid 19和93.69精度和0.99 AUC分数,包括由Covid 19扫描和正常控制。该系统部署在伊斯坦布尔大学的Cerrahpasa医学院。 |
Multi-view Contrastive Coding of Remote Sensing Images at Pixel-level Authors Yuxing Chen 我们的星球通过多个传感器通过多个传感器观察卫星,多光谱,激光雷达和SAR以及不同的时间。多视图观察使我们互补信息比单一的信息。或者,存在不同视图之间共享的常见功能,例如几何和语义。最近,已经提出了对对比的学习方法来对准多视图遥感图像并通过建模不变因子改进单个传感器图像的特征表示。然而,这些方法基于预定义任务的预先预测或仅关注图像级别分类。此外,这些方法缺乏对不确定性估计的研究。在这项工作中,提出了一种基于未标记的多视图设置的像素明智的对比方法来克服这种限制。这是通过在多视图图像之间的特征对准和均匀性中使用具有对比损失来实现的。在这种方法中,训练伪暹罗resunet以学习旨在将特征与偏移的正对和均匀的特征均匀的特征对准的表示的表示。在衬垫协议评估和无监督的改变检测任务上评估多视图遥感图像的学习特征。我们分析了使其工作的方法的关键属性,发现转变标准的要求确保了所提出的方法的成功,并且代表的不确定性估算导致绩效改进。此外,多视图对比度学习的性能受到不同传感器的选择的影响。结果表明,效率和准确性的改进,而不是技术的多视图对比方法的状态。 |
Parallel Attention Network with Sequence Matching for Video Grounding Authors Hao Zhang, Aixin Sun, Wei Jing, Liangli Zhen, Joey Tianyi Zhou, Rick Siow Mong Goh 给定视频,视频接地旨在检索语义对应于语言查询的时间矩。在这项工作中,我们提出了一种并行关注网络,其序列匹配SEQPAN来解决这项任务的挑战多模态表示学习和目标时刻边界预测。我们设计了一个自我指导的并行关注模块,以有效地捕获自我模态背景和视频和文本之间的跨模式细节信息。灵感来自自然语言处理中的序列标记任务,我们将地面真相片刻分成开始,内部和结束区域。然后,我们提出了一个序列匹配策略来指导使用区域标签来指导启动结束边界预测。三个数据集的实验结果表明,SEQPAN优于现有技术的方法。此外,验证了自行引导并行注意模块和序列匹配模块的有效性。 |
Transfer learning approach to Classify the X-ray image that corresponds to corona disease Using ResNet50 pretrained by ChexNet Authors Mahyar Bolhassani 冠状病毒对全世界的人产生了不利影响。 Covid19病毒病和其他呼吸道疾病之间存在常见的症状,如肺炎或流感。因此,快速诊断它不仅是拯救患者的至关重要,而且是为了防止它传播。最重心的诊断方法之一是通过肺的X射线图像。在深度学习方法的帮助下,我们可以教导深层模型来学习受影响的肺部的状况。因此,它可以将新样本分类,好像它是Covid19受感染者的患者。在这个项目中,我们根据想象网数据集和ChexNet DataSet的reset50训练基于Reset50的深度模型。基于Kaggle介绍的Imbalanced Coronahack胸部X射线数据集我们应用了二进制和多类分类。此外,我们在使用焦损和交叉熵损失时比较结果。 |
Sparta: Spatially Attentive and Adversarially Robust Activation Authors Qing Guo, Felix Juefei Xu, Changqing Zhou, Yang Liu, Song Wang 对抗性培训是提高深度卷积神经网络CNNS的稳健性的最有效方法之一。就像常见的网络培训一样,at riges依赖于基本网络组件的设计。在本文中,我们深入研究基本Relu激活分量在鲁棒CNNS中的作用。我们发现Relu激活的空间共享和输入独立性质使CNN与标准或对抗培训的白盒对抗攻击较低。为了解决这个问题,我们将Relu扩展到一种新的Sparta激活函数空间周期和对抗的强大激活,这使得CNN能够实现更高的鲁棒性,即对逆势示例的较低的错误率,以及更高的精度,即,清洁上的较低错误率示例,而不是现有的ART SOTA激活函数的状态。我们进一步研究了Sparta与SOTA激活功能之间的关系,提供了更多关于我们方法优势的见解。通过综合实验,我们还发现所提出的方法表现出优越的交叉CNN和交叉数据集可转换性。对于前者,用于一个CNN的前列训练的SParta函数例如,RESET18可以固定并且直接用于训练另一个普遍服鲁棒的CNN例如,RESET 34。对于后者,在一个数据集中训练的Sparta函数例如,Cifar 10可以用于在另一个数据集中训练在另一个数据集上的前进稳健的CNN。,SVHN。在这两种情况下,Sparta导致CNNS具有比Vanilla Relu更高的鲁棒性,验证所提出的方法的灵活性和多功能性。 |
EchoCP: An Echocardiography Dataset in Contrast Transthoracic Echocardiography for Patent Foramen Ovale Diagnosis Authors Tianchen Wang, Zhihe Li, Meiping Huang, Jian Zhuang, Shanshan Bi, Jiawei Zhang, Yiyu Shi, Hongwen Fei, Xiaowei Xu 专利植物卵形PFO是位于心房隔膜的翼状胬肉部分中的隔膜,峰值和隔膜秒复之间的潜在分离。 PFO是引起密集脑中风的主要因素之一,这是美国死亡的第五个主要原因。对于PFO诊断,对比度转向超声心动图CTTe是与其他相比更稳健的方法。然而,目前通过CTTE的PFO诊断非常慢,因为通过超声心动图象的超声波手动手动进行。目前,社区中没有公开的数据集。在本文中,我们呈现EchoCP,作为靶向PFO诊断的CTTE中的第一超声心动图数据集。 |
Randomly Initialized Convolutional Neural Network for the Recognition of COVID-19 using X-ray Images Authors Safa Ben Atitallah, Maha Driss, Wadii Boulila, Henda Ben Gh zala 到2020年代初,新型冠状病毒疾病Covid 19已被宣布为全球大流行。由于这种传染病的严重程度,几种研究专注于打击其持续的蔓延。检测Covid 19的一个潜在解决方案是使用深度学习DL模型分析胸部X射线图像。在这种情况下,卷积神经网络CNNS作为早期诊断的有效技术呈现。在本研究中,我们提出了一种用于识别Covid 19的随机初始化的CNN架构。该网络由一组从头开始创建的不同大小的隐藏图层组成。该网络的性能通过两个公共数据集进行评估,它们是Covidx和增强的Covid 19数据集。这两个数据集都包括3种不同类别的Covid19,肺炎和普通胸部X射线图像。所提出的CNN模型分别产生令人鼓舞的结果,即94和99分别为Covidx和增强Covid 19数据集的准确性。 |
Transfer Learning Enhanced Generative Adversarial Networks for Multi-Channel MRI Reconstruction Authors Jun Lv, Guangyuan Li, Xiangrong Tong, Weibo Chen, Jiahao Huang, Chengyan Wang, Guang Yang 基于深度学习的生成的对抗网络GaN可以在采样的MR数据下有效地执行图像重建。通常,需要大量训练样本来改善某种模型的重建性能。然而,在真实的临床应用中,难以获得数万根生患者数据来训练模型,因为保存k空间数据不在常规临床流程中。因此,迫切需要提高基于小型样品的网络的普遍性。在本研究中,基于与GaN模型PI GaN和转移学习结合的并行成像进行了三种新应用。该模型预先接受过公共Calgary脑图像,然后在我们的中心2例患者中使用的2例患者2患者2种不同的解剖,包括膝关节和肝脏3种不同的K空间采样掩模,加速因子AFS为2和6。至于脑肿瘤数据集,转移学习结果可以去除PI GaN中发现的伪影,并产生更平滑的脑边缘。膝关节和肝脏的转移学习结果优于使用较少数量的训练案件培训的PI GaN模型的PI GaN模型。然而,与脑肿瘤数据集中的学习相比,学习程序在膝盖数据集中融合得更慢。通过在AFS 2和6的模型中转移学习改善了重建性能。在这两种模型中,带AF 2的模型显示出更好的结果。结果还表明,与预训练模型的转移学习可以解决训练和测试数据集之间不一致的问题,并促进概念的概念数据。 |
Cardiac Functional Analysis with Cine MRI via Deep Learning Reconstruction Authors Eric Z. Chen, Xiao Chen, Jingyuan Lyu, Qi Liu, Zhongqi Zhang, Yu Ding, Shuheng Zhang, Terrence Chen, Jian Xu, Shanhui Sun 回顾性门控葡萄酒克里昂的MRI是心功能分析的临床标准。已经提出了基于深度学习的DL方法,用于重建高强度的MRI数据,并显示出优越的图像质量和幅度比基于CS的方法更快。然而,它仍然尚不清楚DL重建是否适合心脏功能分析。为了解决这个问题,在本研究中,我们评估并比较LV和RV的心功能值EDV,ESV和EF,分别使用基于DL基于DL的重建算法DL Cine具有来自CS Cine和常规减速火箭的值的高度加速的MRI采集。据我们所知,这是第一项评估Cine MRI与深度学习重建进行心功能分析的工作,并将其与其他传统方法进行比较。具有深度学习重建的Cine MRI获得的心功能值与来自临床标准的复古CINE MRI的值一致。 |
COVID-19 Lung Lesion Segmentation Using a Sparsely Supervised Mask R-CNN on Chest X-rays Automatically Computed from Volumetric CTs Authors Vignav Ramesh, Blaine Rister, Daniel L. Rubin 胸X曲线曲霉2019年Covid 19患者经常获得肺病的程度,是创造人工智能模型的宝贵数据来源。大多数迄今为止评估胸膜成像的疾病严重程度的工作都集中在分割计算的层析成像CT图像上,但是,考虑到CTS比Covid 19患者的胸部X射线更频繁地进行,胸部X射线的自动肺病灶分割可能是临床价值的。目前存在胸部X射线的普遍短缺与地面真理Covid 19肺病灶注释,手动轮廓肺不透明是一种繁琐,劳动密集型的任务。为了加速严重程度检测和增强可公开的胸部X射线训练数据的监督深度学习DL模型,我们利用现有的注释CT图像来生成前排投影胸X射线图像,用于训练Covid 19胸X射线模型。在本文中,我们提出了一种自动化管道,用于在由注释的体积CTS计算的开源胸部X射线和冠状X射线投影的混合数据集上培训的胸X射线对Covid 19肺病变的分割。在含有40个Covid的Covid X射线的测试套件上,我们的模型在60个胸部X射线的数据集和10个胸部X光线的混合数据集上培训时,我们的模型将获得0.81 PM 0.03和0.79 PM 0.03 0.03。分别从CTS投影。我们的模型远远超出了具有有限监督培训的电流基线,可以帮助胸部X光线自动化Covid 19严重性定量。 |
Unsupervised MRI Reconstruction via Zero-Shot Learned Adversarial Transformers Authors Yilmaz Korkmaz, Salman UH Dar, Mahmut Yurt, Muzaffer zbey, Tolga ukur 近年来,监督深度学习迅速成为加速MRI的主力,从未采购收购提供了图像重建中的最新性能。培训深度监督模型需要大量的欠采样和完全采样的采集的大型数据集,通常来自匹配的主题集。鉴于对大型医疗数据集的稀缺访问,这种限制引发了对无监督方法的兴趣,这减少了对完全采样的地面真理数据的依赖。常见框架基于之前的深图像,其中网络驱动正则化在推理的推理期间对未采样的采集进行强制执行。然而,Canonical卷积架构在捕获长距离关系中是次优,随机初始化的网络可能妨碍收敛。为了解决这些限制,在这里我们介绍了一种基于零射击学习的对抗变压器壁板的新型无监督的MRI重建方法。 Slater体现了一个深的对抗网络,带有跨关注变压器块,以将噪声和潜在变量映射到MR图像上。这种无条件的网络在自我监督的编码任务中学习了高质量的MRI。对UnderApped测试数据执行零拍重建,通过优化网络参数,潜在和噪声变量来执行推断,以确保多线圈MRI数据的最大一致性。脑MRI数据集的综合实验清楚地展示了斯特拉特对艺术款式无监督方法的卓越性能。 |
A parameter refinement method for Ptychography based on Deep Learning concepts Authors Francesco Guzzi, George Kourousias, Fulvio Bill , Roberto Pugliese, Alessandra Gianoncelli, Sergio Carrato X射线PTychography是一种先进的计算显微镜技术,可提供异常详细的生物和纳米技术样本的定量成像。然而,在传播距离中的粗大参数,位置误差和部分相干频繁威胁实验活力。在这项工作中,我们正式引入了这些演员,解决了整个重建作为优化问题。一种现代深入学习框架用于纠正自主的设置不接合,从而提高了PTYChoge重建的质量。自动程序确实是对减少可靠分析的时间至关重要,这对所有使用这种显微镜的所有领域产生了重大影响。我们在我们的软件框架,Scicompty中实现了我们的算法,将其释放为开源。我们在合成数据集中测试了我们的系统,也可以在Elettra同步rotron设施的Twinmic BeamLine获取的实际数据上进行测试。 |
Chinese Abs From Machine Translation |
Interesting:
📚利用桌面显示器来作为光源, (from 华盛顿大学)
grail.cs.washington.
edu/projects/Light_Stage_on_Every_Desk/.
link: grail.cs.washington.edu/projects/Light_Stage_on_Every_Desk/.