【AI视野·今日CV 计算机视觉论文速览 第202期】Thu, 20 May 2021

378 篇文章 75 订阅
36 篇文章 9 订阅

AI视野·今日CS.CV 计算机视觉论文速览
Thu, 20 May 2021
Totally 47 papers
👉上期速览更多精彩请移步主页

在这里插入图片描述

Interesting:

📚PPR10k, 大规模人像修图数据集 (from 香港理工 达摩院)
在这里插入图片描述
在这里插入图片描述

link:https://github.com/csjliang/PPR10K

📚大规模室内定位数据集, (from NAVER LABS)
在这里插入图片描述

https://naverlabs.com/datasets

📚单层transformer, (from 丹麦奥尔胡斯大学 )
在这里插入图片描述


📚Fusion-DHL多模态融合的室内环境定位算法, (from Sookmyung Women’s University )

在这里插入图片描述


📚Real-Time Video Super-Resolution on Smartphones, (from Mobile AI 2021 Challenge )
在这里插入图片描述在这里插入图片描述

link:https://ai-benchmark.com/workshops/mai/2021/


Daily Computer Vision Papers

Do We Really Need to Learn Representations from In-domain Data for Outlier Detection?
Authors Zhisheng Xiao, Qing Yan, Yali Amit
无监督的异常检测,预测测试样本是一个异常值或仅使用来自未标识的Inlier数据的信息,是一个重要但具有挑战性的任务。最近,基于两个阶段框架的方法在此任务上实现了最新的现有性能。该框架利用了自我监督的表示学习算法来训练Inlier数据上的特征提取器,并在要素空间中应用一个简单的异常值检测器。在本文中,我们探讨了避免为每个异常检测任务培训不同表示的高成本的可能性,而是使用单个预训练网络作为通用特征提取器,无论域数据的源如何。特别是,我们通过一个网络预先培训的网络替换任务特定的特征提取器,其具有自我监督的损失。在实验中,与前两级方法相比,我们在各种异常检测基准上展示了竞争或更好的性能,表明来自域数据中的学习表示可能是不必要的,因为异常值检测可能是不必要的。

High-Resolution Photorealistic Image Translation in Real-Time: A Laplacian Pyramid Translation Network
Authors Jie Liang, Hui Zeng, Lei Zhang
图像转换的现有图像I2IT方法是由于其繁重的高分辨率特征映射的繁重计算负担而被约束到低分辨率图像或长度推理时间。在本文中,我们专注于加快基于封闭式Laplacian金字塔分解和重建的高分辨率光电态I2IT任务。具体地,我们揭示了诸如照明和颜色操纵的属性转换,涉及低频分量,而内容细节可以在高频分量上自适应地改进。因此,我们提出了一个Laplacian金字塔翻译网络LPTN,同时执行这两个任务,在那里我们设计了一种轻量级网络,用于将低频分量转换为降低的分辨率和渐进式掩蔽策略,以有效地优化高频。我们的模型避免了处理高分辨率的大部分繁重的计算功能映射,并忠实地保留图像细节。各种任务的广泛实验结果表明,所提出的方法可以使用一个正常GPU实时翻译4K图像,同时实现针对现有方法的可比变换性能。数据集和代码可用

PPR10K: A Large-Scale Portrait Photo Retouching Dataset with Human-Region Mask and Group-Level Consistency
Authors Jie Liang, Hui Zeng, Miaomiao Cui, Xuansong Xie, Lei Zhang
与一般照片修饰任务不同,肖像照片修饰PPR,旨在提高平面看起来的肖像照片集合的视觉质量,具有其特殊和实用的要求,如人类区域优先HRP和组级一致性GLC。 HRP要求应对人类区域支付更多的关注,而GLC则要求绘制一组肖像照片以保持一致的语气。然而,在现有的一般照片修饰数据集上培训的型号几乎不能满足PPR的这些要求。为了促进这项高频任务的研究,我们构建了一个大规模的PPR数据集,即PPR10K,这是我们最佳知识的第一个。 PPR10K总共包含1,681组和11,161个高质量的原始肖像照片。提供人类区域的高分辨率分割面部。每个Raw照片由三位专家刷新,而他们精心调整每组照片以具有一致的色调。我们定义了一套客观措施来评估PPR的表现,并提出了学习PPR模型的策略,具有良好的HRP和GLC性能。构建的PPR10K数据集提供了用于研究自动PPR方法的良好基准,实验表明,所提出的学习策略是有效改善修饰性能。数据集和代码可用

Generalizable Person Re-identification with Relevance-aware Mixture of Experts
Authors Yongxing Dai, Xiaotong Li, Jun Liu, Zekun Tong, Ling Yu Duan
域概括的DG人物RE IDITE REID是一个具有挑战性的问题,因为我们无法在培训期间访问任何未经看的目标域数据。几乎所有现有的DG REID方法都遵循相同的管道,其中他们使用来自多个源域的混合数据集进行培训,然后直接将训练模型应用于未经检验的目标域进行测试。这些方法通常忽略各个源极域歧视特征及其相关性W.R.T.看不见的目标域,但这两者都可以利用来帮助模型的概括。为了处理上述两个问题,我们提出了一种新的方法,称为专家Ramoe的相关感知混合物,使用有效的基于投票的混合物机制来动态地利用源极域不同特征来改善模型的概率。具体而言,我们提出了一种去相关性损失,使源域网络专家能够保持个体域特征的多样性和可怜的性。此外,我们设计了一个投票网络,可自适应地将所有专家集成到具有域相关性的更广泛的聚合特征中。考虑到培训期间的目标域名,我们提出了一种新颖的学习学习算法与我们的关系对齐损耗相结合以更新投票网络。广泛的实验表明,我们所提出的Ramoe优于现有技术的状态。

XCycles Backprojection Acoustic Super-Resolution
Authors Feras Almasri, Jurgen Vandendriessche, Laurent Segers, Bruno da Silva, An Braeken, Kris Steenhaut, Abdellah Touhafi, Olivier Debeir
计算机愿景群体使用深神经网络DNN的可见图像超分辨率SR的发展得到了很大的关注,并取得了令人印象深刻的结果。非可见光传感器(例如声学成像传感器)的进步引起了很多关注,因为它们允许人们将声波的强度可视化超出可见光谱的声波。然而,由于对获取声学数据的限制,需要提高声学图像分辨率的新方法。此时,没有专为SR问题设计的声学成像数据集。这项工作提出了一种用于声学图像超分辨率问题的新型反投影模型架构,以及声学映射成像Vub数据集AMIVU。 DataSet以不同的分辨率提供大型模拟和真实捕获的图像。与前馈模型方法相比,所提出的XCycles反投影模型XCBP完全使用每个周期中的迭代校正过程来重建低分辨率和高分辨率空间中的编码特征的剩余纠错。在数据集上评估所提出的方法,与经典插值运营商和最近的艺术模型的前馈状态相比,表现出高昂的表现。它还有助于在数据采集期间产生的急剧减少的子采样误差。

Learn Fine-grained Adaptive Loss for Multiple Anatomical Landmark Detection in Medical Images
Authors Guang Quan Zhou, Juzheng Miao, Xin Yang, Rui Li, En Ze Huo, Wenlong Shi, Yuhao Huang, Jikuan Qian, Chaoyu Chen, Dong Ni
自动和准确地检测解剖标识是具有多种应用的医学图像分析中的重要操作。最近的深度学习方法通​​过直接编码捕获的解剖学与可能性图中的外观,提高了结果。然而,大多数当前解决方案都忽略了热爱回归的另一个本质,物镜度量来回归目标热插拔并依靠手工制作的启发式来设置目标精度,从而通常繁琐和特定的任务。在本文中,我们提出了一种新颖的学习来学习地标检测框架,同时优化神经网络和目标精度。这项工作的枢轴是利用加强学习RL框架来搜索在训练过程中动态地在训练过程中动态回归多个热手段的客观度量,从而避免了特定的目标精度。我们还介绍了用于参与的RL代理的互动的早期停止策略,以便考虑探索剥削权衡的单独目标的最佳精度。这种方法在推理中培训和提高了本地化精度的更好稳定性。广泛的实验结果对地标本地化的两个不同应用1我们在房屋产前超声US数据集和2个Cephalometric X射线地标检测的公开数据集,展示了我们提出的方法的有效性。我们拟议的框架是一般的,并展示了提高解剖标志性检测效率的潜力。

An Orthogonal Classifier for Improving the Adversarial Robustness of Neural Networks
Authors Cong Xu, Xiang Li, Min Yang
神经网络易于人工设计的对抗性扰动。最近的努力表明,对分类层进行某些修改可以提高神经网络的鲁棒性。在本文中,我们明确地构建了致密正交权重矩阵,其条目具有相同的幅度,从而导致新颖的鲁棒分类器。所提出的分类器避免了以前的工作中的不期望的结构冗余问题。将此分类器应用于清洁数据的标准培训中足以确保模型的高精度和良好的鲁棒性。此外,当使用额外的对抗性样品时,可以在特殊最坏情况下进一步获得更好的鲁棒性。实验结果表明,我们的方法对许多艺术防御方法的态度有效且竞争。我们的代码可用于URL

Recursive-NeRF: An Efficient and Dynamically Growing NeRF
Authors Guo Wei Yang, Wen Yang Zhou, Hao Yang Peng, Dun Liang, Tai Jiang Mu, Shi Min Hu
通过从一组图像中学习的隐式连续形状表示,例如神经辐射场nerf方法,从而通过其高质量的图像和高分辨率的可扩展性来获得越来越大的关注方法。然而,其体积方法所需的重计算可防止NERF在实践分钟中被认为是渲染少量百万像素的单个图像。现在,可以以细节方式的级别呈现场景的图像,因此我们的特殊区域应由大型神经网络表示,而小神经网络能够编码一个简单的区域,使得能够实现效率与质量之间的平衡。递归NERF是我们这个想法的实施例,提供了NERF的有效和适应性的渲染和培训方法。递归NERF的核心了解查询坐标的不确定性,表示每个级别的预测颜色和体积强度的质量。只有具有高不确定性的查询坐标被转发到一个更强大的代表能力的更大的神经网络。最终渲染图像是各级神经网络的结果的组成。我们对三个公共数据集的评估表明,递归NERF比NERF更有效,同时提供最先进的质量。代码将可用

Local Aggressive Adversarial Attacks on 3D Point Cloud
Authors Yiming Sun, Feng Chen, Zhiyu Chen, Mingjie Wang, Ruonan Li
发现深神经网络易于对抗对抗的例子,这可能是故意愚弄模型来犯错误。最近,通过使用全局点云优化,少数作品将此任务从2D图像扩展到3D点云。然而,全局点的扰动对于误导受害者模型并不有效。首先,并非所有点都在优化误导方面很重要。丰富的积分账户占扭曲预算相当大,但促进攻击。其次,多标签优化是对逆势攻击的次优,因为它消耗了额外的能量来查找多标签受害者模型崩溃,并使实例转换与任何特定实例不同。第三,独立的对抗和感知损失,关心错误分类和异化,同样地治疗每个点的更新而没有焦点。因此,一旦看性损失接近其预算阈值,所有点就会在极度和攻击的表面上库存将被锁定在局部最优性。因此,我们提出了局部激进的对抗性攻击L3A来解决上述问题。从技术上讲,我们选择一堆突出点,根据梯度,点云的高分云子集,到扰动。然后开发了一种侵略性优化策略的流程,以加强对误导受害者模型的不可兴起的对抗性例子。关于Piotnet,PiaTNET和DGCNN的广泛实验证明了我们对现有的对抗攻击方法的方法的最新性能。

Light-weight Document Image Cleanup using Perceptual Loss
Authors Soumyadeep Dey, Pratik Jawanpuria
智能手机使得以数字形式轻松捕获和共享文档。然而,由于捕获环境的老化,污渍或缺点,如阴影,非均匀照明等,通常经常经常进行各种类型的劣化,这减少了文档图像的可理解性。在这项工作中,我们考虑在嵌入式应用程序上的文档图像清理问题,例如智能手机应用程序,通常具有由于设备和最佳人类用户体验而具有内存,能量和延迟限制。我们提出了一种基于轻量级编码器解码器的卷积神经网络架构,用于从文档图像中删除嘈杂元素。为了弥补网络容量低的泛化性能,我们将知识损失纳入了我们损失函数中预训练的深层CNN网络的知识转移。就参数和产品和操作的数量而言,我们的模型分别为65 1030和3 27次,比现有的现有技术增强模型的状态小。总体而言,拟议的模型提供了有利的资源与准确性折衷,我们经验说明了我们对几个真实世界基准数据集的方法的功效。

Localization and Tracking of User-Defined Points on Deformable Objects for Robotic Manipulation
Authors Sven Dittus, Benjamin Alt, Andreas Hermann, Darko Katic, Rainer J kel, J rgen Fleischer
本文介绍了一个有效的过程,以将用户定义的点定位在可变形物体表面上并随时间追踪3D空间中的位置。为了应对可变形的物体S无限数量的DOF,我们提出了一种离散的变形场,其在运行时使用多步非线性求解器管道估计。由此产生的高维能量最小化问题描述了离线定义的参考模型和预处理摄像机图像之间的偏差。额外的正则化术语允许关于对象的隐藏区域的假设,并提高求解器的数值稳定性。我们的方法能够以数据并行方式在线在线解决本地化问题,使其理想地适用于工业制造过程中非刚性物体的感知。

Deep Learning Radio Frequency Signal Classification with Hybrid Images
Authors Hilal Elyousseph, Majid L Altamimi
近年来,深入学习DL已成功应用于检测和分类射频RF信号。 DL方法特别有用,因为它识别出信号的存在而不需要完整的协议信息,并且还可以检测和或分类诸如雷达信号的非通信波形。在这项工作中,我们专注于可以在输入训练数据上使用的不同预处理步骤,并在固定的DL架构上测试结果。虽然以前的作品主要专注于任一时域或频域方法,但我们提出了一种利用时间和频域信息的混合图像,并将分类作为计算机视觉问题。我们的初始结果指出了古典预处理方法的限制,同时还表明它可以构建可以利用多个信号表示强度的分类器。

A Novel lightweight Convolutional Neural Network, ExquisiteNetV2
Authors Shyh Yaw Jou, Chung Yen Su
在exquisitenetv1的论文中,exquisitenetv1分类的能力比densenet更差。在本文中,我们提出了更快,更好的模型Exquisitenetv2。我们进行许多实验来评估其表现。在相同条件下,我们在15个可信数据集中测试Exquisitenetv2,Exquisitenetv1和其他9个众所周知的模型。根据实验结果,Exquisitenetv2获得了一半的数据集的最高分类精度。重要的是,Exquisitenetv2具有最少的参数。此外,在大多数情况下,Exquisitenetv2具有最快的计算速度。

Efficient Transfer Learning via Joint Adaptation of Network Architecture and Weight
Authors Ming Sun, Haoxuan Dou, Junjie Yan
传输学习可以通过利用源域的知识来提高目标上的性能。最近的工程型神经结构搜索NAS,尤其是一个拍摄NAS,可以通过建立足够的网络搜索空间来帮助转移学习。现有NAS方法往往倾向于近似庞大的搜索空间,通过多个子路径,在找到子结构之后,anddiscard超级网络权重近似巨大的搜索空间。现有方法的两个构成都会导致转移学习中的重复网络核对源任务。为了解决上述问题,我们通过在嵌入更大的搜索空间时随机丢弃网络之间随机丢弃连接来进行超级网络大小。此外,通过Proploya新颖框架组成的两个模块,架构转移和神经重量Seepardmodule组成的Proploya新颖框架,以避免超级网络权重,以避免冗余训练。这两个模块基于减少的超级网络对Thetarget任务进行了搜索,因此我们只需要在源任务上训练。我们在COCO和CUB 200的框架上尝试,用于对象检测和细粒度的ImageClassification任务,并显示有希望的改进,仅通过CN超级网络复杂性。

Railroad is not a Train: Saliency as Pseudo-pixel Supervision for Weakly Supervised Semantic Segmentation
Authors Seungho Lee, Minhyun Lee, Jongwuk Lee, Hyunjung Shim
使用图像级弱监管的弱监督语义分段WSS的现有研究具有几个限制稀疏对象覆盖,不准确的对象边界,以及来自非目标对象的CO像素。为了克服这些挑战,我们提出了一种新颖的框架,即明确的伪像素监督EPS,它通过组合两个弱监控来从像素级反馈中学习图像级标签通过定位地图提供对象标识和从搁板上的显着图提供对象标识显着性检测模型提供丰富的边界。我们设计了联合培训策略,充分利用了两种信息之间的互补关系。我们的方法可以获得精确的对象边界和丢弃CO发生像素,从而显着提高了伪掩模的质量。实验结果表明,该方法通过解决WSSS的关键挑战并实现了Pascal VOC 2012和MS Coco 2014数据集的新状态,拟议的方法非常优于现有的方法。

BatchQuant: Quantized-for-all Architecture Search with Robust Quantizer
Authors Haoping Bai, Meng Cao, Ping Huang, Jiulong Shan
由于深度学习模型对边缘设备的应用以加速步伐而增加,因此对具有不同资源约束的各种场景的快速适应已经成为模型部署的关键方面。因此,具有自适应配置的模型优化策略越来越受欢迎。虽然单次拍摄量化的神经结构搜索在模型架构和量化策略中享有灵活性,但组合的搜索空间具有许多挑战,包括在培训重量共享超网络时不稳定,并且难以导航指数越来越多的搜索空间。现有方法倾向于将架构搜索空间限制为一小组选项或将量化策略搜索空间限制为固定的精确策略。为此,我们提出了Batchquant,一种强大的量化器配方,可以快速稳定地训练紧凑,单次射击,精度,重量共享超空键。我们使用BouchQuant培训了一个紧凑的超空网,提供超过10 76个量化的子网,而不是之前的GPU小时。我们对所有QFA量化的方法是第一个无缝扩展一个拍摄权重共享NAS Supernet,以支持具有任意超低比特宽度混合精密量化策略的子网而无需再培训。 QFA在联合硬件意识的神经结构中开辟了新的可能性搜索和量化。我们展示了我们对想象成的方法的有效性,并在低复杂性约束20 MFLOPS下实现了SOTA前1个精度。代码和模型将公开可用

Large-scale Localization Datasets in Crowded Indoor Spaces
Authors Donghwan Lee, Soohyun Ryu, Suyong Yeon, Yonghan Lee, Deokhwa Kim, Cheolho Han, Yohann Cabon, Philippe Weinzaepfel, Nicolas Gu rin, Gabriela Csurka, Martin Humenberger
使用可视化定位估算相机的精确位置,可实现有趣的应用,例如增强现实或机器人导航。这在室内环境中特别有用,其中其他本地化技术,例如GNSS,失败。室内空间对视觉本地化算法诱导有趣的挑战,由于人,Textulessfrace,大的观点变化,低光,重复纹理等。现有的室内数据集是相对的,或者仅涵盖所提到的挑战的子集。在本文中,我们在挑战现实世界环境中介绍了5个新的室内数据集以进行视觉本地化。他们在一座大型购物中心和韩国首尔的大型地铁站中捕获,使用由10个摄像机和2个激光扫描仪组成的专用映射平台。为了获得准确的地面真理相机姿势,我们开发了一种强大的LIDAR SLAM,它提供了使用基于运动优化的新颖结构来改进的初始姿势。我们在这些具有挑战性的数据集中介绍了现代视觉定位算法的基准,显示了使用鲁棒图像特征的基于结构的基于结构的卓越性能。数据集可用

Multiple Meta-model Quantifying for Medical Visual Question Answering
Authors Tuong Do, Binh X. Nguyen, Erman Tjiputra, Minh Tran, Quang D. Tran, Anh Nguyen
转移学习是提取有意义功能的重要步骤,并克服医学视觉问题的数据限制应答VQA任务。但是,大多数现有的医疗VQA方法依赖于外部数据进行传输学习,而数据集中的元数据未充分利用。在本文中,我们提出了一种新的多元模型量化方法,有效地学习了Meta注释,并利用了医疗VQA任务的有意义功能。我们所提出的方法旨在通过自动注释,处理嘈杂的标签和输出元模型来增加元数据,并为医疗VQA任务提供强大的功能。两个公共医疗VQA数据集的广泛实验结果表明,与其他技术方法相比,我们的方法达到了卓越的准确性,而不需要外部数据培训元模型。

Font Style that Fits an Image -- Font Generation Based on Image Context
Authors Taiga Miyazono, Brian Kenji Iwana, Daichi Haraguchi, Seiichi Uchida
当字体上用于文档时,它们是故意由设计人员选择的。例如,在设计书籍封面时,文本的排版是本书整体感觉的重要因素。此外,它需要是书籍其余部分的适当字体。因此,我们提出了一种基于书籍封面内的上下文生成书籍标题图像的方法。我们提出了一个端到端神经网络,用于输入书籍封面,目标位置掩码和所需的书籍标题,并输出适合盖子的程式化文本。所提出的网络使用多输入编码器解码器,文本骨架预测网络,感知网络和对抗鉴别器的组合。我们证明所提出的方法可以通过定量和定性结果有效地生产所需和适当的书籍封面文本。

A Lightweight Privacy-Preserving Scheme Using Label-based Pixel Block Mixing for Image Classification in Deep Learning
Authors Yuexin Xiang, Tiantian Li, Wei Ren, Tianqing Zhu, Kim Kwang Raymond Choo
为确保在深度学习模型培训中使用的敏感数据的隐私,研究界已经设计了许多隐私保留方法。然而,现有方案通常被设计为与文本数据一起使用,或者当大量图像用于培训时,或者在不高效。因此,在本文中,我们提出了一种轻量级和有效的方法来保护图像隐私,同时保持训练集的可用性。具体地,我们设计了深度学习中图像分类隐私保存的像素块混合算法。为了评估其实用程序,我们使用混合训练集在Wiki DataSet和CNBC面部数据集上培训Reset50,VGG16,Inceptionv3和Densenet121模型。测试集上的实验结果表明,我们的方案保留了图像隐私,同时保持了深入学习模型中培训的可用性。此外,实验结果表明,在CNBC数据集上,我们对维基数据集和resnet50和densenet121的VGG16模型进行了良好的性能。像素块算法在图像的混合中实现了相当高的效率,并且对攻击者将混合训练恢复到原始训练集的攻击者来说是对攻击性的挑战。此外,数据增强可以应用于混合训练集,以提高培训的效果。

Learning optimally separated class-specific subspace representations using convolutional autoencoder
Authors Krishan Sharma 1 , Shikha Gupta 1 , Renu Rameshan 2 1 Vehant Technologies Pvt. Ltd., 2 Indian Institute of Technology Mandi, India
在这项工作中,我们提出了一种基于新的卷积AutoEncoder基于卷积的架构,可以生成最适合分类任务的子空间特定的特征表示。假设类特定数据位于低维线性子空间中,该子空间可能是嘈杂的,并且不良好分开,即两个类之间的子空间距离主角非常低。所提出的网络使用一种新型类特定的自我表达式CSSE层,夹在编码器和解码器网络之间,以生成良好分开的类明智子空间表示。 CSSE层与编码器解码器一起训练,使得数据仍然位于特征空间中的子空间中,其具有高于输入空间的主角的最小主角。为了证明所提出的方法的有效性,已经对最先进的机器学习数据集进行了几个实验,并且在现有的基于子空间的转换学习方法上观察到分类性能的显着提高。

Multi-Person Extreme Motion Prediction with Cross-Interaction Attention
Authors Wen Guo, Xiaoyu Bie, Xavier Alameda Pineda, Francesc Moreno
人类运动预测旨在预测未来人类的姿势给出了一系列过去的3D骷髅。虽然这个问题最近受到了越来越多的关注,但它主要是为了孤立的单身人类而解决。在本文中,我们从新颖的角度探讨了这个问题,涉及人类执行合作任务。我们假设我们的系统的输入是两个互动人员过去骷髅的两个序列,我们的目标是预测每个人的未来运动。为此目的,我们设计了一种新颖的交叉互动注意力,它利用了两个人的历史信息,并学会预测自我姿势之间的交叉依赖性,尽管它们是空间或时间距离的情况。由于没有数据集可以培训此类交互式情况,因此我们捕获了Expi极端姿态互动,这是一个新的基于实验室的专业舞者互动数据集,执行了杂技。 Expi包含115个序列,其中30k帧和60k实例,带有注释的3D身体姿势和形状。我们在此数据集上彻底评估了我们的交叉交互网络,并显示了短期和长期预测,它一直以为每个人的基础来表达所有原因的基线。我们计划与DataSet共同发布我们的代码,并列车测试分配以促进未来对该主题的研究。

Non-contact Pain Recognition from Video Sequences with Remote Physiological Measurements Prediction
Authors Ruijing Yang, Ziyu Guan, Zitong Yu, Guoying Zhao, Xiaoyi Feng, Jinye Peng
自动疼痛识别对于医学诊断和治疗至关重要。现有工程分为三类评估面部外观变化,利用生理线索,或以多模态方式融合它们。然而,有1个外观变化很容易受到阻碍客观疼痛识别的主观因素的影响。此外,基于外观的方法忽略了对时间表达的建模表达的长范围空间时间依赖性,通过将传感器连接在人体上,这是不方便和不舒服的。在本文中,我们提出了一种新的多任务学习框架,其以非接触方式编码外观变化和生理线索以进行疼痛识别。该框架能够通过所学习的外观表示的提出的注意机制来捕获本地和长距离依赖性,这是通过暂时参加的生理学提示远程光增性敏感的远程光增性肌光扰动,从辅助任务中的视频中恢复的RPPG进一步富集。该框架被称为RPPG丰富的Spatio临时关注网络rstan,并允许我们在公开的止痛数据库上建立非接触疼痛识别的最新性能。它表明RPPG预测可以用作辅助任务,以便于非接触自动疼痛识别。

Multimodal Deep Learning Framework for Image Popularity Prediction on Social Media
Authors Fatma S. Abousaleh, Wen Huang Cheng, Neng Hao Yu, Yu Tsao
每天通过各种类型的社交网络将数十亿的照片上传到网络。其中一些图像可以获得数百万次观点并变得流行,而其他图像则仍然被忽视。这提出了预测社交媒体上的图像普及的问题。图像的普及可能受到若干因素的影响,例如视觉内容,美学质量,用户,后元数据和时间。因此,考虑到所有这些因素对于准确地预测图像普及是必不可少的。此外,预测模型的效率也起到了至关重要的作用。在这项研究中,通过多式化学习的动机,它使用各种方式的信息,以及各种领域的卷积神经网络中CNN的当前成功,我们提出了一种被称为视觉社会卷积神经网络VSCNN的深度学习模型,这预测了A的普及通过将各种类型的视觉和社交功能纳入统一网络模型来发布图像。 vscnn首先通过使用两个单独的CNN来学习从输入的视觉和社交功能中提取高级表示。然后将这两个网络的输出融合到联合网络中以估计输出层中的普及分数。我们通过在Flickr上发布的大约432K图像的数据集进行广泛的实验来评估所提出的方法的性能。仿真结果表明,所提出的VSCNN模型显着优于现有技术的态度,相对改善,在Spearman S Rho,平均绝对误差和平均平均误差方面具有大于2.33,7.59和14.16。

Correlated Adversarial Joint Discrepancy Adaptation Network
Authors Youshan Zhang, Brian D. Davison
域适应旨在在将知识从一个域转移到另一个类似但不同的域时减轻域移位问题。但是,大多数现有的作品依赖于在不考虑类标签的情况下提取边际功能。此外,某些方法在使用目标域标签调整参数时,将其显示其模型如此称为无监督域适应。为了解决这些问题,我们提出了一种称为相关的对抗关节差异自适应网络CAJNet的新方法,这最大限度地减少了两个域的关节差异,并使用相关标签进行调整参数实现竞争性能。通过培训联合特征,我们可以对准两个域之间的边缘和条件分布。此外,我们介绍了基于概率的顶部Mathcal K相关标签Mathcal K标签,它是目标域的强大指标和有效的度量来调谐参数以辅助预测。基准数据集的广泛实验表明了在最先进的分类准确性的显着改进。

Analyzing the effectiveness of image augmentations for face recognition from limited data
Authors Aleksei Zhuchkov
这项工作提出了对来自有限数据的面部识别问题的图像增强效率的分析。我们考虑了基本操作,生成方法及其增强组合。我们的结果表明,一般而言,增强可以大大提高人脸识别系统的质量,并且生成和基本方法的组合比其他测试技术更好。

Self-Supervised Learning for Fine-Grained Visual Categorization
Authors Muhammad Maaz, Hanoona Abdul Rasheed, Dhanalaxmi Gaddam
最近在自我监督学习SSL的研究已经显示了它在学习有用的语义表示中的能力,从图像中学习了分类任务的有用语义表示。通过我们的工作,我们研究了SSL对细粒度视觉分类FGVC的有用性。 FGVC旨在区分视觉上类似的子类别的对象在一般类别中。小型互类类,但数据集中的大型课程变体使其成为一个具有挑战性的任务。这种细粒度数据的注释标签的有限可用性鼓励对SSL的需求,如果没有额外注释的成本,额外的监督可以提高学习。我们的基线通过在测试期间培训和中心作物增强期间利用随机作物增强来实现86.36前1个分类准确性。在这项工作中,我们探讨了各种借口任务的有用性,具体而言,旋转,借口不变表示学习Pirl,以及FGVC的解构和建设学习DCL。作为辅助任务的旋转促使模型学习全球特征,并将其转移到专注于微妙的细节。使用拼图修补程序的皮肤尝试专注于歧视的地方区域,但努力准确地本地化。 DCL通过实现87.41前1个精度来帮助学习本地歧视特征并优于基线。解构学习迫使模型专注于局部对象部分,而重建学习有助于学习部件之间的相关性。我们对我们的研究结果进行了大量的实验。我们的代码可供选择

Pathdreamer: A World Model for Indoor Navigation
Authors Jing Yu Koh, Honglak Lee, Yinfei Yang, Jason Baldridge, Peter Anderson
在不熟悉的建筑中导航的人利用无数视觉,空间和语义线索,以有效地实现他们的导航目标。为了用类似功能的计算代理,我们介绍了Pathdreamer,这是一种用于在新颖的室内环境中导航的代理的视觉世界模型。考虑到一个或多个先前的视觉观察,PathDreamer在训练期间未见的建筑物中没有被访问的观点产生合理的高分辨率360视觉观察RGB,语义分割和深度。在高不确定性的区域中,例如在角落里预测,想象一个看不见的房间的内容,PathDreamer可以预测不同的场景,允许代理对给定轨迹来采样多个现实结果。我们展示了PathDreamer通过在视觉和语言导航VLN的下游任务中使用它来编码有用和可访问的视觉,空间和语义知识。具体来说,我们表明,通过Pathdreamer的规划,从未观察到的环境的实际观察中展示了展望未来的一半。我们希望PathDreamer将帮助解锁基于模型的方法,以挑战体现的导航任务,例如导航到指定的对象和VLN。

A Decade of Research for Image Compression In Multimedia Laboratory
Authors Shahrokh Paravarzar, Javaneh Alavi
随着技术进步,我们拥有高处理能力和价格实惠的超级计算机。此外,使用多媒体扩大世界各地。这导致了不同领域的图像和视频。由于这种数据包括大量信息,因此需要使用压缩方法来存储,管理或更好地传输它们。引入的一种有效技术是可变分辨率。该技术刺激人类视觉并将图片中的区域分成两种不同的部件,包括利益领域,其需要更少细节和周边部件。这导致更好的压缩。变量分辨率用于图像,视频和3D运动数据压缩。本文研究了这方面提到的技术和其他一些研究。

Unsupervised Discriminative Learning of Sounds for Audio Event Classification
Authors Sascha Hornauer, Ke Li, Stella X. Yu, Shabnam Ghaffarzadegan, Liu Ren
基于网络的音频事件分类的最新进展显示了预培训模型在诸如想象成的视觉数据上的益处。虽然此过程允许在不同域跨越知识传输,但在大规模的视觉数据集中培训模型是耗时的。在几个音频事件分类基准测试中,我们展示了一个快速有效的替代方案,即预测模型,只有在音频数据上才能使用ImageNet预培训来实现对性能。此外,我们表明我们的鉴别性音频学习可用于在音频数据集中传输知识,并且可选地包括想象成预训练。

Image to Image Translation : Generating maps from satellite images
Authors Vaishali Ingale, Rishabh Singh, Pragati Patwal
来自卫星图像的地图的产生通常由一系列工具进行。地图成为了生命的重要组成部分,其卫星图像的转换可能有点昂贵但是生成模型可以剥夺这一挑战。这些模型旨在找到输入和输出图像之间的模式。图像到图像转换的图像被用于将卫星图像转换为相应的地图。用于图像转换的不同技术,如生成的对抗网络,条件对抗网络和CO变化自动编码器,用于为该区域生成相应的人类可读地图,该区域在给定的缩放电平以其输入处采用卫星图像。我们在有条件生成的对抗网络上培训我们的模型,该模型包括发电机模型,该发电机模型产生假图像,而鉴别器试图将图像分类为真实的或假,这两个模型都以逆势方式同步训练,两者都试图互相欺骗导致提高模型性能。

Joint Calibrationless Reconstruction and Segmentation of Parallel MRI
Authors Aniket Pramanik, Xiaodong Wu, Mathews Jacob
来自MRI数据的大脑区域的体积估计是许多临床应用中的关键问题,其中期望在高空间分辨率下采集数据。虽然并行MRI和受限的图像重建算法可以加速扫描,但图像重建伪像是不可避免的,尤其是在高加速因子。我们介绍了一种用于透明的并行MRI重建的新型图像域深度学习框架,与分割网络耦合,以提高图像质量,并降低电流分割算法的漏洞到由加速度产生的图像伪影。具有分割算法的所提出的图像域深度横切方法的组合提供了改进的图像质量,同时提高了分割的准确性。具有重建和分段任务之间共享的编码器的新颖架构,以减少对分段训练数据集的需求。特别是,所提出的拍摄训练策略只需要10个分段数据集来提供良好的性能。

Tool- and Domain-Agnostic Parameterization of Style Transfer Effects Leveraging Pretrained Perceptual Metrics
Authors Hiromu Yakura, Yuki Koyama, Masataka Goto
由于其一个拍摄转移不适合探索性设计流程,所以目前的风格转移深度学习技术对设计支持来说是最佳的。为了克服这一差距,我们提出了参数转录,该转录,该参数转录,其结束于现有内容编辑工具中可用的特定变换的参数值。通过这种方法,用户可以模仿他们熟悉的工具中的参考样本的样式,因此可以通过操纵参数来容易地继续探索。为了实现这一点,我们介绍了一个框架,利用现有的预追溯模型进行风格传输,计算到参考样本的感知风格距离,并使用黑匣子优化来找到最小化此距离的参数。我们的实验,具有各种第三方工具,如Instagram和Blender,表明我们的框架可以有效地利用用于计算设计支持的深度学习技术。

Adaptive Hypergraph Convolutional Network for No-Reference 360-degree Image Quality Assessment
Authors Jun Fu, Chen Hou, Wei Zhou, Jiahua Xu, Zhibo Chen
在没有引用360度图像质量评估NR 360IQA中,图形卷积网络GCNS,通过图形的视口之间的模型相互作用取得了令人印象深刻的性能。然而,基于GCN的NR 360iQA方法普遍存在三个主要限制。首先,它们仅使用扭曲图像的高级功能来回归质量分数,而人类视觉系统HVS基于分层特征进行分数图像。其次,它们通过图形简化了视口之间的复杂高阶交互。第三,在图形结构中,它们只考虑视口的空间位置,忽略其内容特征。因此,为了解决这些问题,我们向NR 360IQA提出了一种自适应的超图卷积网络,表示为AHGCN。具体地,我们首先设计一个多级视口描述符,用于从视口中提取分层表示。然后,我们通过超图模拟视口之间的相互作用,其中每个HITEDEGE连接了两个或多个视口。在超图构造中,我们构建基于位置的HIFFEGE和基于内容的每个视口的超级特工。两位公共360iQA数据库的实验结果表明,我们的建议方法具有明显的优势,最先进的完整参考,没有参考IQA模型。

TableZa -- A classical Computer Vision approach to Tabular Extraction
Authors Saumya Banthia, Anantha Sharma, Ravi Mangipudi
计算机辅助表格数据提取始终是一个非常具有挑战性的并且易于出错的任务,因为它需要数据的光谱和空间理智。在本文中,我们讨论了文献理解领域的表格数据提取方法。鉴于各种文档经常发现的不同类型的表格格式,我们讨论了一种使用计算机视觉的新方法,用于从图像转换为图像S的图像或向量PDF S的​​表格数据提取表格数据。

Single-Layer Vision Transformers for More Accurate Early Exits with Less Overhead
Authors Arian Bakhtiarnia, Qi Zhang, Alexandros Iosifidis
在具有有限计算资源的时间关键应用中部署深度学习模型,例如在边缘计算系统和物联网网络中,是一个具有挑战性的任务,通常依赖于动态推断方法,例如早期退出。在本文中,我们介绍了一种基于视觉变压器架构的早期退出的新型架构,以及与传统方法相比,显着提高早期出口分支的准确性,同时引入较少的开销。通过对图像和音频分类的广泛实验以及视听人群计数,我们表明我们的方法适用于分类和回归问题,以及单一和多模态设置。此外,我们介绍了一种新的方法,用于在视听数据分析中的早期出口中集成音频和视觉方式,这可能导致更细粒度的动态推断。

Guided Facial Skin Color Correction
Authors Keiichiro Shirai, Tatsuya Baba, Shunsuke Ono, Masahiro Okuda, Yusuke Tatesumi, Paul Perrotin
本文提出了一种自动图像校正方法,用于肖像照片,通过抑制由于背景颜色而抑制肤色变化来促进面部肤色的一致性。在肖像照片中,由于照明环境,肤色往往是扭曲的,例如,从彩色背景壁反射和通过摄像机频闪反射的光,并且如果照片与另一个背景颜色人工结合,则强调这种颜色变化,导致在不自然的合成结果中。在我们的框架中,在大致提取面部区域并在彩色空间中矫正肤色分布,我们在原始图像中的面部进行颜色和亮度校正,以实现面部图像的适当颜色平衡,这不受影响亮度和背景颜色。与用于颜色校正的传统算法不同,我们的最终结果由具有引导图像的颜色校正处理实现。具体地,我们的颜色校正的引导图像滤波不需要在He等人提出的原始引导图像滤波方法中所需的完美对准导向图像。实验结果表明,我们的方法比常规方法产生更多的自然结果,不仅是爆头照片,还可以产生自然场景照片。我们还显示了自动年鉴风格的照片生成作为另一个应用程序。

When Deep Classifiers Agree: Analyzing Correlations between Learning Order and Image Statistics
Authors Iuliia Pliushch, Martin Mundt, Nicolas Lupp, Visvanathan Ramesh
虽然随着时间的推移,近代的建筑变体已经被引入了深度分类,但最近的作品已经发现了对其培训过程中相似性的经验证据。已经假设神经网络不仅融合到类似的表示,而且还展示了首先学习数据实例的实证协议的概念。在后面的作品脚步之后,我们定义了一个度量标准,以量化此类分类协议之间的关系,并证明了协议现象可以映射到调查数据集的核心统计数据。我们经验在CIFAR10,Pascal,Imagenet和Kth Tips2数据集中证明了这一假设。我们的调查结果表明,协议似乎与特定架构无关,培训超参数或标签,尽管根据图像统计进行排序。

TarGAN: Target-Aware Generative Adversarial Networks for Multi-modality Medical Image Translation
Authors Junxiao Chen, Jia Wei, Rui Li
配对多模态医学图像可以提供互补信息,以帮助医生做出比单个模态医学图像更合理的决策。但由于在实践中的多种因素,它们难以产生,例如,时间,成本,辐射剂量。为了解决这些问题,多种式态医学图像翻译最近引起了越来越多的研究兴趣。然而,现有的作品主要关注整个图像的翻译效果,而不是关键目标区域或感兴趣的地区,例如器官等。这导致局部目标区域的质量翻译差,这使得模糊,变形或甚至具有额外的不合理纹理。在本文中,我们提出了一种名为Targan的新型目标意识生成的对抗网络,其是一种能够1学习多模态医学图像转换的通用多模态医学图像转换,而无需依赖于配对数据,2增强了目标区域的质量目标区域标签的帮助。 Targan的生成器共同学习两个级别的映射,同时整个图像转换映射和目标区域转换映射。这两个映射通过建议的过失损失相互关联。关于定量措施和定性评估的实验表明,Targan在所有情况下都能优于现有技术的状态。进行后续分割任务,以证明Targan在真实世界应用中产生的合成图像的有效性。我们的代码可供选择

Prototype Guided Federated Learning of Visual Feature Representations
Authors Umberto Michieli, Mete Ozay
联合学习FL是一种框架,可以使用大型分散的分散培训数据进行分布式模型培训。现有方法总体模型无视其内部陈述,这对于愿景任务中的培训模式至关重要。系统和统计异质性例如,高度不平衡和非I.I.D。数据进一步损害模型培训。为此,我们介绍了一种名为FEDPROTO的方法,该方法使用分布式数据中学到的原型型表示的边缘来计算客户端偏差,并应用它们通过注意机制驱动联合优化。此外,我们提出了三种方法来分析FL中学到的特征表示的统计特性,以便阐明精度,边缘和FL模型的特征差异之间的关系。在实验分析中,FEDPROTO通过实现FL模型的最大边距训练,证明了图像分类和语义分段基准的技术准确性和收敛速率。此外,与基线相比,FedProto减少了对FL模型预测的不确定性。为了我们的知识,这是第一个评估致密预测任务中的流程,例如语义分割。

VSGM -- Enhance robot task understanding ability through visual semantic graph
Authors Cheng Yu Tsai, Mu Chun Su
近年来,为机器人学制定AI提出了很大的关注。愿景和机器人语言的相互作用特别困难。我们认为,为机器人提供了对视觉语义和语言语言的理解将提高推理能力。在本文中,我们提出了一种新的方法VSGM视觉语义图存储器,它使用语义图获得更好的视觉图像特征,提高机器人的视觉理解能力。通过提供机器人的先验知识并检测图像中的对象,它预测对象的属性与对象之间的相关性,并将它们转换为基于曲线图的表示,并将图像中的对象映射为顶部的预测映射。最后,通过图形神经网络提取当前任务的重要对象特征。本文提出的方法在从现实环境和指令数据集中学习的Alfred动作中验证。在此数据集中,机器人需要按照所需的语言说明执行日常室内家庭任务。在将模型添加到VSGM之后,任务成功率可以提高6 10。

Multi-Contrast MRI Super-Resolution via a Multi-Stage Integration Network
Authors Chun Mei Feng, Huazhu Fu, Shuhao Yuan, Yong Xu
超分辨率SR在提高磁共振成像MRI的图像质量方面发挥着至关重要的作用。 MRI产生多对比度图像,可以提供清晰的软组织显示。然而,当前的超分辨率方法仅采用单个对比度,或使用简单的多对比融合机制,忽略不同对比之间的丰富关系,这对于改善SR是有价值的。在这项工作中,我们提出了一个多阶段集成网络I.E.,用于多对比度MRI SR的Minet,其明确地模拟了在不同阶段的多对比图像之间的依赖性来引导图像SR。特别是,我们的Minet首先从不同的对比图像中从多个卷积阶段学习分层特征表示。随后,我们介绍了一个多阶段集成模块来挖掘多对比图像的表示之间的综合关系。具体地,模块与所有其他特征与所有其他特征匹配,这些特征在其相似度中集成以获得丰富的表示。关于FastMri和Real World临床数据集的广泛实验表明,1我们的Minet优于艺术状态的艺术状态多对比SR方法在各种度量和2方面,我们的多阶段集成模块能够在不同阶段的多造影功能之间挖掘复杂的相互作用,引领改善目标图像质量。

Comparing Kullback-Leibler Divergence and Mean Squared Error Loss in Knowledge Distillation
Authors Taehyeon Kim, Jaehoon Oh, NakYil Kim, Sangwook Cho, Se Young Yun
知识蒸馏KD,从繁琐的教师模型转移到轻量级学生模型,已经研究了设计有效的神经结构。通常,KD的目标函数是教师模型的软化概率分布与学生模型与温度缩放覆盖率Tau之间的克拉莱莱布勒KL发散损失。尽管使用广泛使用,但很少有研究已经讨论了这种软化对泛化的影响。在这里,理论上,我们展示了KL发散损失重点关注当TAU增加时的标签匹配并经过虚拟性地表明,Logit匹配一般与性能改进呈正相关。从这个观察开始,我们考虑一个直观的KD丢失功能,Logit Vectors之间的平均平均误差MSE,使学生模型可以直接学习教师模型的登录。 MSE损失优于KL发散损失,这解释了两次损失之间的倒数第二层表示的差异。此外,我们表明序列蒸馏可以提高性能,特别是Kd,特别是当使用小Tau的KL发散损失时,减轻标签噪声。重现实验的代码在线公开可用

Fusion-DHL: WiFi, IMU, and Floorplan Fusion for Dense History of Locations in Indoor Environments
Authors Sachini Herath, Saghar Irandoust, Bowen Chen, Yiming Qian, Pyojin Kim, Yasutaka Furukawa
本文提出了一种多模态传感器融合算法,包括WiFi,IMU和PlitherPlan信息,以推断室内环境中准确和密集的位置历史。该算法使用惯性导航算法来估计来自IMU传感器数据2的相对运动轨迹,其行业中的基于WiFi的定位API,以获得位置约束和地理化轨迹和3卷积神经网络,以优化与之一致的位置历史平面图。

Real-Time Video Super-Resolution on Smartphones with Deep Learning, Mobile AI 2021 Challenge: Report
Authors Andrey Ignatov, Andres Romero, Heewon Kim, Radu Timofte, Chiu Man Ho, Zibo Meng, Kyoung Mu Lee, Yuxiang Chen, Yutong Wang, Zeyu Long, Chenhao Wang, Yifei Chen, Boshen Xu, Shuhang Gu, Lixin Duan, Wen Li, Wang Bofei, Zhang Diankai, Zheng Chengjian, Liu Shaoli, Gao Si, Zhang Xiaofeng, Lu Kaidi, Xu Tianyu, Zheng Hui, Xinbo Gao, Xiumei Wang, Jiaming Guo, Xueyi Zhou, Hao Jia, Youliang Yan
视频超分辨率最近成为视频通信和流媒体服务的兴起导致最重要的移动相关问题之一。虽然已经为此任务提出了许多解决方案,但在具有有限的硬件资源的便携式设备上运行,它们的大多数都是昂贵的。为了解决这个问题,我们介绍了第一个移动AI挑战,其中目标是开发结束以结束基于深度学习的视频超分辨率解决方案,可以在移动GPU上实现实时性能。参与者与Reds DataSet提供并培训他们的模型,以进行高效的4倍视频Upcaling。所有型号的运行时间都在OPPO上查找X2智能手机,Snapdragon 865 SoC能够在其adreno GPU上加速浮点网络。所提出的解决方案与任何移动GPU完全兼容,并且可以在高达80个FPS上高档视频,同时展示高保真效果。本文提供了在挑战中开发的所有模型的详细描述。

Fast and Accurate Quantized Camera Scene Detection on Smartphones, Mobile AI 2021 Challenge: Report
Authors Andrey Ignatov, Grigory Malivenko, Radu Timofte, Sheng Chen, Xin Xia, Zhaoyan Liu, Yuwei Zhang, Feng Zhu, Jiashi Li, Xuefeng Xiao, Yuan Tian, Xinglong Wu, Christos Kyrkou, Yixin Chen, Zexin Zhang, Yunbo Peng, Yue Lin, Saikat Dutta, Sourya Dipta Das, Nisarg A. Shah, Himanshu Kumar, Chao Ge, Pei Lin Wu, Jin Hua Du, Andrew Batutin, Juan Pablo Federico, Konrad Lyda, Levon Khojoyan, Abhishek Thanki, Sayak Paul, Shahid Siddiqui
相机场景检测是智能手机上最受欢迎的计算机视觉问题之一。虽然通过电话供应商开发了许多定制解决方案,但迄今为止,均未公开使用设计型号。为了解决这个问题,我们介绍了第一个移动AI挑战,其中目标是开发基于量化的深度学习的相机场景分类解决方案,可以在智能手机和物联网平台上展示实时性能。为此,参与者被提供有一个大规模的CAMSDD数据集,由属于30个最重要的场景类别的超过11k图像组成。所有型号的运行时间都在许多IOS设备中找到的流行苹果仿生A11平台评估。建议的解决方案与所有主要移动AI加速器完全兼容,可以在大多数最近的智能手机平台上展示超过100 200 FPS,同时实现了超过98的前3个精度。本文提供了在挑战中开发的所有模型的详细描述。

Masked Contrastive Learning for Anomaly Detection
Authors Hyunsoo Cho, Jinseok Seol, Sang goo Lee
检测异常是安全关键软件系统的一个基本方面,然而,它仍然是一个很长的问题。已经提出了许多工程分支来缓解并发症并证明了它们的效率。特别是,由于其在没有额外标签的情况下学习不同的陈述的能力,自我监督的基于学习的方法是刺激感兴趣的。在自我监督的学习策略中,对比学习是一种验证其在各种领域的优越性的特定框架,包括异常检测。然而,对比学习的主要目标是学习任务不可知的功能,没有任何标签,这并不完全适合辨别异常。在本文中,我们提出了一项名为蒙面对比学学习的对比学习的任务特定变体,这对于异常检测更加成功。此外,我们提出了一种新的推理方法,通过辅助自我监督任务利用借助辅助学习的能力,进一步提高了性能。通过组合我们的模型,我们可以通过各种基准数据集的重要余量优于前面的现有技术。

Chinese Abs From Machine Translation

Papers from arxiv.org

更多精彩请移步主页


pic from pexels.com

评论 5
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值