【AI视野·今日CV 计算机视觉论文速览第212期】Thu, 3 Jun 2021

本文链接：https://blog.csdn.net/u014636245/article/details/117536473

AI视野·今日CS.CV 计算机视觉论文速览
Thu, 3 Jun 2021
Totally 32 papers
👉上期速览✈更多精彩请移步主页

在这里插入图片描述

Daily Computer Vision Papers

The Semi-Supervised iNaturalist Challenge at the FGVC8 Workshop
Authors Jong Chyi Su, Subhransu Maji
半Inat是一个具有挑战性的数据集，用于半监督分类，具有长尾部分布的类，细粒度的类别，标签和未标记数据之间的域移位。该数据集落后于在CVPR 2021的FGVC8研讨会上举行半监督识别挑战的第二次迭代。与前一个人不同，这个数据集我包括来自自然分类学中的不同王国的物种图像，II较大在课堂上的810级和1629年的尺寸超过330K图像，而III不提供类别标签，但提供粗大的分类标签王国和未标记图像的门。本文档介绍了基线结果以及数据集的详细信息，可在此处提供URL

Data augmentation and pre-trained networks for extremely low data regimes unsupervised visual inspection
Authors Pierre Gutierrez, Antoine Cordier, Tha s Caldeira, Th ophile Sautory
利用来自预测的异常检测目的的预训练的神经网络的深度特征最近在计算机视觉领域收集了势头。特别地，工业检测应用可以利用这些特征，如MVTEC异常检测MVTEC AD数据集的相关方法的多功能所示。这些方法利用预先培训的神经网络，如想象成的辅助分类任务。然而，为了我们的知识，没有对这些方法之间的低数据制度的稳健性的比较研究已经进行。对于质量检测应用，有限的样本尺寸的处理可能是至关重要的，因为小系列不适用于大量图像。在这项工作中，我们的目标是在改变MVTEC广告KNN，Mahalanobis和班码中的可用数据数量时，基于深度预训练功能进行比较三种方法。我们表明，虽然这些方法大多是对小样本尺寸的强大，但它们仍然可以从原始图像空间中使用数据增强，这仍然可以受益，这允许处理非常小的生产运行。

Semi-Supervised Semantic Segmentation with Cross Pseudo Supervision
Authors Xiaokang Chen, Yuhui Yuan, Gang Zeng, Jingdong Wang
在本文中，我们通过探索标记数据和额外的未标记数据来研究半监督语义分割问题。我们提出了一种新的一致性正规化方法，称为交叉伪监督CPS。我们的方法对两个分割网络扰乱了相同的输入图像的不同初始化的一致性。伪一个热标签地图，从一个扰动的分割网络输出，用于监督与标准交叉熵损耗的其他分段网络，反之亦然。 CPS一致性有两个角色鼓励两个扰动网络的预测与相同的输入图像的预测之间的高相似性，并通过使用伪标签使用未标记的数据来扩展训练数据。实验结果表明，我们的方法在2012年达到了城市景观和Pascal VOC上的艺术半监督分割性能。

DFGC 2021: A DeepFake Game Competition
Authors Bo Peng, Hongxing Fan, Wei Wang, Jing Dong, Yuezun Li, Siwei Lyu, Qi Li, Zhenan Sun, Han Chen, Baoying Chen, Yanjie Hu, Shenghai Luo, Junrui Huang, Yutong Yao, Boyuan Liu, Hefei Ling, Guosheng Zhang, Zhiliang Xu, Changtao Miao, Changlei Lu, Shan He, Xiaoyan Wu, Wanyi Zhuang
本文提出了DFGC 2021竞争的摘要。 DeepFake技术正在快速发展，逼真的脸部互换越来越欺骗，难以检测。同时，DeepFake检测方法也在改善。 Deepfake创造者和探测器之间有两个派对游戏。本次竞争为在最新状态之间的对抗性游戏之间进行了基准测试的共同平台，这是艺术艺术的深度创作和检测方法的当前状态。在本文中，我们展示了本次竞争的组织，结果和最高解决方案，并分享了在此活动期间获得的见解。我们还释放了从我们的参与者收集的DFGC 21测试数据集，以进一步使研究界进一步受益。

ImVoxelNet: Image to Voxels Projection for Monocular and Multi-View General-Purpose 3D Object Detection
Authors Danila Rukhovich, Anna Vorontsova, Anton Konushin
在本文中，我们介绍了基于多视图RGB的3D对象检测的任务作为结束到最终优化问题。为了解决这个问题，我们提出了一种基于单眼或多视图RGB图像的三维对象检测的新型全卷积方法。每个多视图输入中的单眼图像的数量可以在训练和推理过程中变化，每个多视图输入可能是唯一的。 Imvoxelnet成功处理室内和室外场景，这使其成为通用目的。具体地，它实现了最新的状态，导致在接受RGB图像的所有方法中的基特单眼和NUSCENES多视图基准上的汽车检测。此外，它超越了Sun RGB D数据集的基于RGB的3D对象检测方法。在Scannet上，Imvoxelnet为多视图3D对象检测设置了一个新的基准测试。源代码和培训的型号在URL上可用

Online and Real-Time Tracking in a Surveillance Scenario
Authors Oliver Urbann, Oliver Bredtmann, Maximilian Otten, Jan Philip Richter, Thilo Bauer, David Zibriczky
本文提出了一种在监控场景中跟踪的方法。这种情况的典型方面是24 7操作，其静态相机安装在人类高于人类的高度上方，有许多物体或人。多个对象跟踪基准20 MOT20最佳地反映了这种情况。我们可以证明我们的方法是实时能够对此基准和优于Hota，Mota和IDF1的所有其他实时方法。我们通过为线性运行时提供重新撰写的快速暹罗网络而不是二次来实现这一目标，而不是从检测到产生指纹。因此，可以基于指纹，与图像中的联合和像素距离比的多个跟踪特定评分余弦相似性将检测与卡尔曼滤波器相关联。

Benchmarking CNN on 3D Anatomical Brain MRI: Architectures, Data Augmentation and Deep Ensemble Learning
Authors Benoit Dufumier, Pietro Gori, Ilaria Battaglia, Julie Victor, Antoine Grigis, Edouard Duchesnay
深度学习DL和专门的CNN模型已成为广泛的视觉任务，优于传统机器学习ML方法的事实上的方法。因此，他们在神经影像元领域引起了很多关注，特别是对于表型预测或计算机辅助诊断。然而，大多数目前的研究通常经常处理小单位队列，以及特定的预处理管道和自定义CNN架构，这使得它们难以比较。我们提出了近期艺术SOTA 3D CNN状态的广泛基准，还评估了数据增强和深度学习的好处，基于体文素的形态学VBM预处理和准原始图像。在一个大型多网站3D脑解剖MRI数据集上进行了实验，该MRI数据集包括N 10K扫描的3个挑战性任务年龄预测，性分类和精神分裂症诊断。我们发现所有型号都提供了比准原始数据的VBM图像明显更好的预测。此发现随着培训集接近10K样本，原始数据几乎达到VBM的性能。此外，我们展示了线性模型与VBM数据上的SOTA CNN相当执行。我们还证明了DENSENET和TINY DENNENET，我们提出的更轻的版本，在所有数据制度中的性能方面都提供了良好的妥协。因此，我们建议默认雇用它们作为架构。批判性地，我们还表明，即使用N 10K多网站图像训练，目前的CNN仍然朝向采集现场偏置。在此上下文中，VBM预处理提供了限制此站点效果的有效方法。令人惊讶的是，我们没有发现数据增强技术的任何明显的益处。最后，我们证明，深度集合学习非常适合在没有牺牲性能的情况下重新校准大型CNN模型。

Towards Robust Classification Model by Counterfactual and Invariant Data Generation
Authors Chun Hao Chang, George Alexandru Adam, Anna Goldenberg
尽管在科学，工业和社会中的机器学习应用程序成功，但是，已知许多方法是不强大的，通常依赖于虚假的相关性来预测。当某些特征与标签相关但不是因果依赖性的特征时，会发生杂散，这是防止模型广泛地通过这种相关性破裂的不均匀环境。在这项工作中，我们专注于图像分类，并提出两种数据生成过程来减少虚假性。鉴于具有标签的特征子集的人为注释，例如标签的负责原因。边界框，我们修改此因果设置以生成代理图像，该图像不再具有相同的标签i.e.E。我们还改变非因果特征以生成图像仍然被识别为原始标签，这有助于向这些功能学习模型不变。在几个具有挑战性的数据集中，我们的数据代准确性在杂散相关性断裂时精确地优于现有技术的状态，并提高了占因果特征的显着焦点，提供更好的解释。

TSI: Temporal Saliency Integration for Video Action Recognition
Authors Haisheng Su, Jinyuan Feng, Dongliang Wang, Weihao Gan, Wei Wu, Yu Qiao
高效的时空建模是视频动作识别的重要又具有挑战性的问题。现有技术方法利用运动线索来帮助通过连续帧的时间差来帮助短期时间建模。然而，由于相机运动，将不可避免地引入背景噪声。此外，不同行动的运动可以大大变化。在本文中，我们提出了一个时间显着积分TSI块，主要包含一个突出运动激励SME模块和交叉量程时间集成CTI模块。具体地，中小企业旨在通过局部全局运动建模来突出运动敏感区域，其中背景抑制和金字塔特征差相连续地在相邻帧之间进行，以捕获较少的背景噪声的运动动态。 CTI旨在分别通过一组单独的1D卷积进行多尺度时间建模。同时，不同尺度的时间交互与注意机制集成。通过这两个模块，通过引入有限的附加参数，可以有效地编码长短的短期时间关系。广泛的实验是在几个流行的基准中进行的，即V1 V2，动力学400，UCF 101和HMDB 51的东西，这证明了我们所提出的方法的有效性和优越性。

Rethinking Cross-modal Interaction from a Top-down Perspective for Referring Video Object Segmentation
Authors Chen Liang, Yu Wu, Tianfei Zhou, Wenguan Wang, Zongxin Yang, Yunchao Wei, Yi Yang
参考视频对象分段RVOS旨在将视频对象分段为自然语言参考的指导。以前的方法通常通过在图像格子上直接接地语言参考来解决RVOS。这种自下而上的策略未能探索对象级别线索，很容易导致较差的结果。在这项工作中，我们改进了两个阶段，顶下RVOS解决方案。首先，通过从多个采样帧中检测到的对象掩模传播到整个视频来构建穷举的对象轨迹集。其次，提出了一种基于转换的托管语言接地模块，其模型级别视觉关系和跨模型交互同时和有效地。我们的模型在CVPR2021上排名第一，参考YouTube VOS挑战。

A Novel Edge Detection Operator for Identifying Buildings in Augmented Reality Applications
Authors Ciprian Orhei, Silviu Vert, Radu Vasiu
增强现实是一种环境增强技术，广泛应用于许多领域，如旅游和文化。该领域的主要挑战之一是通过计算机视觉技术精确地检测和提取建筑信息。边缘检测是计算机视觉中许多特征提取解决方案的构建块操作之一。 AR系统使用边缘检测来建筑提取或从建筑物中提取门面细节。在本文中，我们提出了一种用于边缘检测的新型过滤器运算符，其旨在提取建筑物轮廓或立面功能更好。所提出的滤波器为找到垂直和水平边缘提供更多的重量，这是我们瞄准的重要特征。

Towards Unified Surgical Skill Assessment
Authors Daochang Liu, Qiyue Li, Tingting Jiang, Yizhou Wang, Rulin Miao, Fei Shan, Ziyu Li
外科技能对手术安全和患者的良好影响有很大影响。传统的外科技能评估涉及艰苦的手动努力，这缺乏效率和可重复性。因此，我们试图自动预测使用外科视频进行手术的程度。在本文中，提出了一种统一的自动外科技能评估的多路径框架，其负责手术技能的多种构成方面，包括外科手术工具使用，术中事件模式和其他技能代理。这些不同方面之间的依赖关系是由框架中的路径依赖模块专门建模的。我们对模拟外科任务的拼图数据集进行了广泛的实验，以及真正腹腔镜手术的新临床数据集。所提出的框架在两个数据集上实现了有希望的结果，在模拟数据集中的最先进，从0.71的Spearman S的相关性到0.80。还表明，组合多种技能方面的性能比依赖于单个方面的性能更好。

Feedback Network for Mutually Boosted Stereo Image Super-Resolution and Disparity Estimation
Authors Qinyan Dai, Juncheng Li, Qiaosi Yi, Faming Fang, Guixu Zhang
在立体设置下，图像超分辨率SR和差异估计的问题是相互关联的，每个问题的结果都可以有助于解决另一个问题。有效利用不同视图之间的对应性有助于SR性能，而具有更丰富的高分辨率的HR特征有利于对应估计。根据这种动机，我们提出了一个立体声超级分辨率和差断估计反馈网络SSRDE FNET，其同时处理统一框架中的立体图像超分辨率和差断估计，并彼此交互，以进一步提高它们的性能。具体而言，SSRDE FNET由两个双重递归子网络组成，用于左和右视图。除了在低分辨率LR空间中的横视信息开发之外，SR过程产生的HR表示以更高的精度执行HR视差估计，可以聚合HR特征以产生更精细的SR结果。之后，所提出的HR视差信息反馈HRDIF机制将由HR差距携带的信息返回到之前的层以进一步优化SR图像重建。广泛的实验证明了SSRDE FNET的有效性和进步。

End-to-End Information Extraction by Character-Level Embedding and Multi-Stage Attentional U-Net
Authors Tuan Anh Nguyen Dang, Dat Thanh Nguyen
最近的信息提取从文档图像提取了很多关注，因为需要数字化大量的非结构化文件，如发票，收据，银行转账等。在本文中，我们提出了一部新颖的深度学习架构，以结束结束信息提取对文档的2D字符网格嵌入，即文本多阶段注意U网。为了有效捕获2D元素之间的文本和空间关系，我们的模型利用了专门的多级编码器解码器设计，与自我注意机制和盒子卷积的有效用途相结合。不同数据集上的实验结果表明，我们的模型在使用40个参数时，我们的模型在大幅度的情况下优于基线U净架构。此外，它还显着改善了错误的OCR和有限的培训数据场景中的基线，因此对现实世界的应用变得实用。

Consumer Image Quality Prediction using Recurrent Neural Networks for Spatial Pooling
Authors Jari Korhonen, Yicheng Su, Junyong You
通过使用卷积神经网络CNN在过去几年中已经实现了对主观图像质量预测的有希望的结果。然而，用于高分辨率图像质量评估的CNN仍然是一个挑战，因为已经为小分辨率输入图像设计了典型的CNN架构。在该研究中，我们提出了一种图像质量模型，该图像质量模型试图通过使用经常性的神经网络RNN来模仿人类视觉系统HV的注意机制，用于通过基于CNN基于CNN的特征提取器从不同空间区域提取的特征的空间汇集的空间汇集。通过使用来自最近公开的图像质量数据集的不同分辨率的图像进行的实验研究表明所提出的方法的质量预测精度与代表现有技术的基准模型具有竞争力，并且所提出的方法也在不同的情况下执行同一数据集的分辨率版本。

Translational Symmetry-Aware Facade Parsing for 3D Building Reconstruction
Authors Hantang Liu, Wentong Li, Jianke Zhu
有效地解析外观对于3D建筑重建至关重要，这是一种重要的计算机视觉问题，具有大量应用在高精度地图中，用于导航，计算机辅助设计和数字娱乐城市代表。为此，关键是如何精确且有效地从2D图像中获得形状语法。虽然在语义解析上享有有前途结果的优点，但深入学习方法不能直接利用建筑规则，这对人类制造的结构起着重要作用。在本文中，我们提出了一种新颖的基于转化对称的方法来改善深神经网络。我们的方法采用深度学习模型作为基础解析器，利用平移对称的模块用于优化初始解析结果。与传统的语义分割或边界框预测相比，我们提出了一种新颖的方案，以便在单级网络中使用锚定检测来熔断分割，这使得能够有效的培训和更好的收敛。在将外墙解析为形状语法之后，我们采用了搅拌器等货架渲染引擎，以使用程序建模重建现实的高质量3D模型。我们在三个公共数据集进行实验，我们提出的方法优于现有技术的方法。此外，我们已经说明了由2D外观图像构建的3D建筑模型。

TransMIL: Transformer based Correlated Multiple Instance Learning for Whole Slide Image Classication
Authors Zhuchen Shao, Hao Bian, Yang Chen, Yifeng Wang, Jian Zhang, Xiangyang Ji, Yongbing Zhang
多实例学习MIL是一种强大的工具，可以解决基于整个幻灯片图像WSI的病理诊断中的弱监督分类。然而，目前的MIL方法通常基于独立和相同的分布假设，因此忽略了不同实例之间的相关性。为了解决这个问题，我们提出了一个名为CONTELATE MIL的新框架，并提供了融合证明。基于此框架，我们设计了一个基于变压器的MIL TMARMIL，其探讨了形态和空间信息。该拟议的透射能力可以有效地应对不平衡的平衡和二元分类，具有良好的可视化和可解释性。我们对三种不同的计算病理问题进行了各种实验，并与现有技术的状态相比，实现了更好的性能和更快的会聚。二进制肿瘤分类的测试AUC可以在CAMELYON16数据集中高达93.09。和癌症亚型分类的AUC分别可以在TCGA NSCLC数据集和TCGA RCC数据集中高达96.03和98.82。

Rotation Equivariant Feature Image Pyramid Network for Object Detection in Optical Remote Sensing Imagery
Authors Pourya Shamsolmoali, Masoumeh Zareapoor, Jocelyn Chanussot, Huiyu Zhou, Jie Yang
在过去的几年中，对象检测在遥感图像RSIS上存在大量进展，其中物体通常以大规模的变化分布并具有不同类型的方向。然而，大多数当前卷积神经网络方法缺乏应对尺寸和旋转变化等挑战的能力。为了解决这些问题，我们提出了基于旋转设备卷积的图像金字塔网络的旋转等级特征图像金字塔网络Refipn。所提出的金字塔网络通过使用小说卷积滤波器提取各种秤和方向的特征。这些特征用于生成矢量字段，并确定图像上所有空间位置的最高评分取向的权重和角度。最后，提取的特征通过检测器的预测层。所提出的模型的检测性能在两个常用的天线基准上验证，结果表明我们的提议模型可以以满意的效率实现最新的现有性能。

Refining the bounding volumes for lossless compression of voxelized point clouds geometry
Authors Emre Can Kaya, Sebastian Schwarz, Ioan Tabus
本文介绍了一种用于点云几何的新型无损压缩方法，建立最近的损耗压缩方法，其旨在仅重建点云的边界体积。所提出的方案通过部分地重建与与单个投影方向相关联的两个堤坝的几何形状。从深度图获得的部分重建通过沿一个方向沿着一个方向通过截面和编码不包含在两个深度图中的点来完成点云的完全重建。主要成分是基于列表的基于内部点的编码，其通过新的算术三维上下文编码过程，其有效地利用输入数据中存在的旋转修正率。在基准数据集中获得每个体素结果的最先进状态。

nnDetection: A Self-configuring Method for Medical Object Detection
Authors Michael Baumgartner, Paul F. Jaeger, Fabian Isensee, Klaus H. Maier Hein
在医学图像中的同时定位和分类，也称为医疗对象检测，是高临床相关性，因为诊断决策通常依赖于物体的评级而不是例如像素。对于此任务，方法配置的繁琐和迭代过程构成了一个主要的研究瓶颈。最近，NNU网对成功取得了巨大成功，为图像细分的任务解决了这一挑战。在NNU Net S议程之后，在这项工作中，我们系统化并自动化了医疗对象检测的配置过程。由此产生的自配置方法，NNDetection，在没有任何手工干预到任意医学检测问题的情况下，同时实现与本领域的结果或优于现有技术的结果。我们展示了NNDetection对两台公共基准，亚当和Luna16的有效性，并提出了关于公共数据集的进一步医疗对象检测任务以进行综合方法评估。代码是at.

Cleaning and Structuring the Label Space of the iMet Collection 2020
Authors Vivien Nguyen, Sunnie S. Y. Kim
IMET 2020 DataSet是艺术归因识别空间中的有价值的资源，但我们认为它尚未达到其真正的潜力。我们记录数据集的唯一属性，并观察到许多属性标签是嘈杂的，而不是DataSet描述暗示。通常，标签之间还存在语义关系，例如，相同，相互排除，加州，与我们相信的不确定性重叠。我们提出了一种清洁和构建IMET 2020标签的方法，并讨论了这样做的影响和价值。此外，我们通过几个实验展示了我们提出的方法的益处。我们的代码和清洁标签可供选择

Multi-task fully convolutional network for tree species mapping in dense forests using small training hyperspectral data
Authors Laura Elena Cu La Rosa, Camile Sothe, Raul Queiroz Feitosa, Cl udia Maria de Almeida, Marcos Benedito Schimalski, Dario Augusto Borges Oliveira
这项工作提出了一种多任务完全卷积的树种，用于使用超细无人机传承数据的稀疏和稀缺多边形级别注释中的浓郁林中的树种映射。我们的模型实现了一种部分损失功能，可以实现来自非密集训练样本的密集树语义标记结果，以及执行树冠边界限制的距离回归互补任务，并大大提高了模型性能。我们的多任务架构使用共享骨干网，该网络用于了解任务和两个任务特定解码器的常见表示，一个用于语义分段输出，一个用于距离映射回归。我们报告说，介绍互补任务可以与最多10个达到87.5的总体F1分数的单一任务对应物相比提高了语义分割性能，总体F1得分为87.5，实现了85.9的总体准确性，实现了热带森林中的树种分类的最新性能。

ICDAR 2021 Competition on On-Line Signature Verification
Authors Ruben Tolosana, Ruben Vera Rodriguez, Carlos Gonzalez Garcia, Julian Fierrez, Santiago Rengifo, Aythami Morales, Javier Ortega Garcia, Juan Carlos Ruiz Garcia, Sergio Romero Tapiador, Jiajia Jiang, Songxuan Lai, Lianwen Jin, Yecheng Zhu, Javier Galbally, Moises Diaz, Miguel Angel Ferrer, Marta Gomez Barrero, Ilya Hodashinsky, Konstantin Sarin, Artem Slezkin, Marina Bardamova, Mikhail Svetlakov, Mohammad Saleem, Cintia Lia Sz cs, Bence Kovari, Falk Pulsmeyer, Mohamad Wehbi, Dario Zanca, Sumaiya Ahmad, Sarthak Mishra, Suraiya Jabin
本文介绍了在线签名验证SVC 2021上的ICDAR 2021竞争的实验框架和结果。 SVC 2021的目标是评估流行方案办公室移动和通过大规模公共数据库编写输入触控笔手指的线签名验证系统的限制。在竞争中考虑了三个不同的任务，模拟了随机和技术伪造的实际方案，同时考虑每个任务。在SVC 2021中获得的结果证明了深度学习方法的高潜力。特别是，SVC 2021的最佳线路签名验证系统获得了3.33任务1,7.41任务2和6.04任务3的相同误差率eer值。

Deep Clustering Activation Maps for Emphysema Subtyping
Authors Weiyi Xie, Colin Jacobs, Bram van Ginneken
我们提出了一种深入的学习聚类方法，可以利用来自计算机断层扫描CT扫描的肺气肿群的分段网络中的密集特征。使用密集功能可以通过密度聚类激活映射DCAM来实现与群集分配对应的图像区域的高分辨率可视化。这种方法提供了模型解释性。我们评估了来自COPDGESTUDY的500个科目的聚类结果，其中放射科医师根据其视觉CT评估手动注释肺气肿子类型。我们实现了43个无监督的聚类精度，优于41的基线，并产生与45次监督分类相当的结果。该方法还提供比基线更好的群集形成，在剪影系数中实现0.54，David Bouldin分数为0.55。

Digital homotopy relations and digital homology theories
Authors P. Christopher Staecker
在本文中，我们证明了与两种同型关系的结果和数字图像拓扑中开发的四种同源理论有关。

Deep Learning based Full-reference and No-reference Quality Assessment Models for Compressed UGC Videos
Authors Wei Sun, Tao Wang, Xiongkuo Min, Fuwang Yi, Guangtao Zhai
在本文中，我们提出了一种深度学习的视频质量评估VQA框架，以评估压缩用户生成的内容UGC视频的质量。所提出的VQA框架由三个模块，特征提取模块，质量回归模块和质量池模块组成。对于特征提取模块，我们将卷积神经网络CNN网络中间层的特征融为最终质量意识的特征表示，这使得模型能够充分利用从低电平到高电平的视觉信息。具体地，从所有中间层提取的特征映射的结构和纹理相似度被计算为完整参考FR VQA模型的特征表示，并且由中间特征映射融合的最终特征映射的全局均值和标准偏差计算为NO参考NR VQA模型的功能表示。对于质量回归模块，我们使用完全连接的FC层将质量意识功能退出到帧级别分数。最后，采用主观启发的时间汇集策略来汇集帧级别得分进入视频级别得分。该建议的模型在压缩的UGC VQA数据库上实现了最先进的FR和NR VQA模型的最佳性能，并且还可以在Wild UGC VQA数据库中实现了很好的性能。

Prediction of the Position of External Markers Using a Recurrent Neural Network Trained With Unbiased Online Recurrent Optimization for Safe Lung Cancer Radiotherapy
Authors Michel Pohl, Mitsuru Uesaka, Hiroyuki Takahashi, Kazuyuki Demachi, Ritu Bhusal Chhatkuli
在肺癌放射疗法期间，可以记录胸部上红外反射物体的位置以估计肿瘤位置。然而，放射治疗系统通常具有固定的机器人控制限制所固有的延迟，其阻碍了辐射递送精度。不考虑这种现象可能对健康组织的损害产生不必要的损害，导致副作用如辐射肺炎。在这项研究中，我们使用九个观察记录在73秒至222s的间隔内呼吸健康个体呼吸的胸部和腹部三维位置。采样频率等于10Hz，并且记录的轨迹的幅度范围为6mm至40mm，沿优异的低位方向。我们预测每个标记的位置与地平线值同时预先预测预先预测，其中预测在0.1s和2.0s之间，使用具有无偏见的在线复发优化uoro培训的经常性神经网络。我们将其性能与RNN进行比较，该性能与实时复发学习，最小均方向LMS和离线线性回归。在每个序列的第一分钟内进行训练和交叉验证。平均而言，uoro实现了最低的均方根RMS和最大误差，分别为1.3mm和8.8mm，每个时间步长的预测时间低于2.8ms戴尔英特尔核心I9 9900K 3.60GHz。线性回归具有0.1s和0.2s的地平值值为0.1s和0.2s的最低RMS误差，其次是0.3s和0.5s之间的地平值的LMS，以及大于0.6s的地平线值的uoro。

Online Coreset Selection for Rehearsal-based Continual Learning
Authors Jaehong Yoon, Divyam Madaan, Eunho Yang, Sung Ju Hwang
DataSet是一个关键证据的迹象来描述任务。但是，数据集中的每个数据点都不具有相同的潜力，因为一些数据点可以比其他数据点更具代表性或信息。数据点之间的这种不平等性可能在基于排练的持续学习中产生了很大的影响，在那里我们将培训例子的子集储存在后面以重放以减轻灾难性的遗忘。在持续学习中，储存在Coreset中的样品的质量直接影响模型的效率和效率。 Coreset选择问题在现实设置中变得更加重要，例如不平衡的持续学习或嘈杂的数据方案。为了解决这个问题，我们提出了在线Coreset选择OCS，这是一种简单而有效的方法，可以在每次迭代中选择最具代表性和信息性的Coreset，并以在线方式列举它们。我们所提出的方法可以最大限度地提高到目标数据集的模型，同时选择高亲和力样本到过去的任务，直接抑制灾难性的遗忘。我们验证了我们的Coreset选择机制在各种标准，不平衡和嘈杂的数据集中对强大的持续学习基线的有效性，证明它改善了任务适应并防止灾难性地以示例有效的方式遗忘。

Tips and Tricks to Improve CNN-based Chest X-ray Diagnosis: A Survey
Authors Changhee Han, Takayuki Okamoto, Koichi Takeuchi, Dimitris Katsios, Andrey Grushnikov, Masaaki Kobayashi, Antoine Choppin, Yutaka Kurashina, Yuki Shimahara
卷积神经网络CNNS本质上需要大规模数据，而胸部X射线CXR图像往往是数据注释稀缺，导致过度配件。因此，根据我们的发展经验和相关工作，本文彻底介绍了提高CXR诊断中的概括的技巧如何利用额外的数据，ii增加馏分数据，III正规化培训，和IV进行有效的细分。作为基于这种优化技术的发展示例，我们还具有基于Lpixel S CNN的CXR溶液，eirl胸部结节，其改善放射学器非放射科医生的结节检测灵敏度分别在保持特异性的同时分别为0.100 0.131。

Self-supervised Lesion Change Detection and Localisation in Longitudinal Multiple Sclerosis Brain Imaging
Authors Minh Son To, Ian G Sarno, Chee Chong, Mark Jenkinson, Gustavo Carneiro
纵向成像在管理中形成了重要组成部分，并跟进许多医疗条件。序列成像的病变变化可能对临床决策产生重大影响，突出了自动变化检测的重要作用。病变变化可以代表串行成像中的异常，这意味着有限的注释可用性以及需要考虑的各种可能的变化。因此，我们介绍了一个新的无人监督异常检测和本地化方法，专门使用不包含任何病变变化的串行图像。我们的培训自动综合串行图像的病变变化，引入用于自我监督我们模型培训的伪标签。鉴于合成图像中的这些病变变化的罕见程度，我们用不平衡强大的焦点TVERSKY损失训练模型。与在不同数据集培训的监督模型相比时，我们的方法显示出在多发性硬化患者纵向磁共振成像上的新脱髓鞘病变的检测和定位中的竞争性能。模型的代码将在GitHub上提供。

Fourier Space Losses for Efficient Perceptual Image Super-Resolution
Authors Dario Fuoli, Luc Van Gool, Radu Timofte
许多超分辨率SR模型仅针对高性能进行了优化，因此由于大型模型复杂性而缺乏效率。随着大型型号在现实世界应用中往往不实用，我们调查并提出新的损失功能，使SR具有高度高效的模型。给定低复杂性发生器网络的代表性电力只能通过朝向最佳参数集的强烈指导来充分利用。我们表明，可以完全提高最近推出的高效发电机架构的性能，仅考虑了我们所提出的损失功能。特别是，我们使用傅里叶空间监督损失来改善从地面真相图像改进缺失的高频HF内容的恢复，并设计直接在傅立叶域中工作的鉴别员架构，以更好地匹配目标HF分布。我们认为，我们的损失直接强调傅里叶空间中的频率显着提高了感知图像质量，同时与此任务的先前提出的损耗功能相比，同时保持高恢复质量。通过利用空间和频域损耗的组合，进一步改善了性能，因为这两个表示在训练期间提供了互补信息。首先，训练有素的发生器可以分别比现有技术的状态速度快，达到比较的结果，并且分别比现有技术的状态速度更快，而不是48倍。

Evaluating Recipes Generated from Functional Object-Oriented Network
Authors Md Sadman Sakib, Hailey Baez, David Paulius, Yu Sun
针对功能对象的网络芯片被引入为知识表示，这是针对符号任务规划的图形的形式。为了获得操纵任务的顺序计划，机器人可以通过芯片的知识检索过程获得任务树。为了评估所获取的任务树的质量，我们将其与传统形式的任务知识进行比较，例如食谱或手册。我们首先自动将任务树转换为食谱，然后我们通过调查将它们与人类创建的食谱进行比较。我们的初步研究发现Refipe1M的食谱和在正确性，完整性和清晰度方面的Foon任务树生成的食谱之间没有显着差异。

Chinese Abs From Machine Translation

Papers from arxiv.org

更多精彩请移步主页

pic from pexels.com