【AI视野·今日CV 计算机视觉论文速览第295期】Tue, 23 Jan 2024_unifying visual and vision-language tracking via c-CSDN博客

本文链接：https://blog.csdn.net/u014636245/article/details/136116127

AI视野·今日CS.CV 计算机视觉论文速览
Tue, 23 Jan 2024
Totally 134 papers
👉上期速览✈更多精彩请移步主页

在这里插入图片描述

Daily Computer Vision Papers

Exploring Simple Open-Vocabulary Semantic Segmentation
Authors Zihang Lai
开放词汇语义分割模型旨在从一组任意开放词汇文本中准确地将语义标签分配给图像中的每个像素。为了学习这种像素级对齐，当前的方法通常依赖于图像级 VL 模型的组合，例如CLIP、ii 地面实况掩码和 iii 自定义分组编码器。在本文中，我们介绍了 S Seg，这是一种新颖的模型，无需依赖上述任何元素即可实现令人惊讶的强大性能。 S Seg 利用伪掩模和语言来训练 MaskFormer，并且可以从公开的图像文本数据集轻松进行训练。与之前的工作相反，我们的模型直接训练像素级特征和语言对齐。经过训练后，S Seg 可以很好地推广到多个测试数据集，而无需进行微调。此外，S Seg 还具有数据可扩展性以及通过自我训练增强后持续改进的额外优势。

Less Could Be Better: Parameter-efficient Fine-tuning Advances Medical Vision Foundation Models
Authors Chenyu Lian, Hong Yu Zhou, Yizhou Yu, Liansheng Wang
参数高效的微调 PEFT 最初是为了利用预先训练的大型语言模型而开发的，最近已成为在计算机视觉任务上执行迁移学习的有效方法。然而，PEFT 在医学视觉基础模型上的有效性仍不清楚，有待探索。作为概念验证，我们对将 PEFT 应用于胸部放射线摄影基础模型进行了详细的实证研究。具体来说，我们深入研究了 LoRA（一种代表性的 PEFT 方法），并将其与跨三个完善的胸部 X 线照片数据集的两个自监督 X 线摄影基础模型上的全参数微调 FFT 进行比较。我们的结果表明，在使用少于 1 个可调参数的情况下，LoRA 在 18 个迁移学习任务中的 13 个中最多优于 FFT 2.9 个。将 LoRA 与基础模型相结合，我们在一系列数据高效学习任务上建立了最新的技术水平，例如使用 NIH ChestX ray14 上的 1 个标记数据获得 80.6 的 AUROC 分数。我们希望这项研究能够引起社区对使用 PEFT 进行医学成像任务的迁移学习的更多关注。

Connecting the Dots: Leveraging Spatio-Temporal Graph Neural Networks for Accurate Bangla Sign Language Recognition
Authors Haz Sameen Shahgir, Khondker Salman Sayeed, Md Toki Tahmid, Tanjeem Azwad Zaman, Md. Zarif Ul Alam
深度学习和计算机视觉的最新进展已被成功利用来为各种情况下的边缘化社区提供服务。其中一个领域是手语，它是聋人社区的主要交流方式。然而，到目前为止，大部分研究工作和投资都投入到了美国手语方面，而对资源匮乏的手语尤其是孟加拉手语的研究活动却明显滞后。在这篇研究论文中，我们提出了一个新的单词级孟加拉手语数据集 BdSL40，其中包含超过 40 个单词的 611 个视频，以及两种不同的方法，一种采用 3D 卷积神经网络模型，另一种采用新颖的图神经网络方法来分类BdSL40 数据集。这是第一个关于单词级 BdSL 识别的研究，数据集是使用 1997 年孟加拉手语词典从印度手语 ISL 转录而来的。所提出的 GNN 模型的 F1 分数为 89。该研究强调了 BdSL、西孟加拉手语和 ISL 之间显着的词汇和语义相似性，以及文献中缺乏 BdSL 的词级数据集。

CheXagent: Towards a Foundation Model for Chest X-Ray Interpretation
Authors Zhihong Chen, Maya Varma, Jean Benoit Delbrouck, Magdalini Paschali, Louis Blankemeier, Dave Van Veen, Jeya Maria Jose Valanarasu, Alaa Youssef, Joseph Paul Cohen, Eduardo Pontes Reis, Emily B. Tsai, Andrew Johnston, Cameron Olsen, Tanishq Mathew Abraham, Sergios Gatidis, Akshay S. Chaudhari, Curtis Langlotz
胸部 X 射线 CXR 是临床实践中最常进行的影像学检查。视觉语言基础模型 FM 开发的最新进展使得执行自动 CXR 解释成为可能，这可以帮助医生进行临床决策并改善患者的治疗结果。然而，开发能够准确解释 CXR 的 FM 具有挑战性，因为 1 医学图像领域中大规模视觉语言数据集的可用性有限，2 缺乏可以捕获医学数据复杂性的视觉和语言编码器，3 缺乏评估用于对 FM 的 CXR 解释能力进行基准测试的框架。在这项工作中，我们通过首先引入 emph CheXinstruct 来解决这些挑战，这是一个由 28 个公开可用数据集组成的大规模指令调整数据集。然后，我们提出 emph CheXagent 一个指令调整的 FM，能够分析和总结 CXR。为了构建 CheXagent，我们设计了一个用于解析放射学报告的临床大语言模型 LLM、一个用于表示 CXR 图像的视觉编码器以及一个连接视觉和语言模式的网络。最后，我们介绍了 emph CheXbench，这是一种新颖的基准，旨在系统地评估 8 个临床相关 CXR 解释任务中的 FM。五位放射专家专家进行的广泛定量评估和定性审查表明，CheXagent 在 CheXbench 任务上的性能优于之前开发的通用和医学领域 FM。此外，为了提高模型透明度，我们对性别、种族和年龄因素进行公平性评估，以突出潜在的绩效差异。

LONEStar: The Lunar Flashlight Optical Navigation Experiment
Authors Michael Krause, Ava Thrasher, Priyal Soni, Liam Smego, Reuben Isaac, Jennifer Nolan, Micah Pledger, E. Glenn Lightsey, W. Jud Ready, John Christian
本文记录了使用星跟踪器 LONEStar 进行的非常成功的月球手电筒光学导航实验的结果。月球手电筒 LF 于 2022 年 12 月发射，是 NASA 资助的一项技术演示任务。在推进系统异常导致无法捕获月球轨道后，LF 被从地月系统喷射到日心空间。 NASA 随后将 LF 的所有权转让给佐治亚理工学院，以执行一项无资金支持的扩展任务，以展示进一步的先进技术目标，包括 LONEStar。从2023年8月12月开始，LONEStar团队进行了光学仪器的轨道校准和多项不同的OPNAV实验。该活动包括处理近 400 张星域、地球和月球以及其他四颗行星水星、火星、木星和土星的图像。 LONEStar 首次仅使用行星光学观测进行了日心导航的轨道演示。

Broiler-Net: A Deep Convolutional Framework for Broiler Behavior Analysis in Poultry Houses
Authors Tahereh Zarrat Ehsan, Seyed Mehdi Mohtavipour
检测禽舍中的异常对于维持鸡的最佳健康状况、最大限度地减少经济损失和提高盈利能力至关重要。本文提出了一种新颖的实时框架，用于分析散养禽舍中鸡的行为以检测异常行为。具体来说，本研究调查了两种显着的异常现象，即不活跃的肉鸡和挤作一团的行为。所提出的框架包括三个关键步骤：1 利用最先进的深度学习模型进行鸡检测，2 使用快速跟踪器模块在连续帧中跟踪单个鸡，3 检测视频流中的异常行为。进行实验研究以评估所提出的算法在准确评估鸡行为方面的功效。结果表明，我们的框架为实时异常检测提供了精确有效的解决方案，有助于及时采取干预措施，以保持鸡的健康并提高家禽养殖场的整体生产力。

Single-View 3D Human Digitalization with Large Reconstruction Models
Authors Zhenzhen Weng, Jingyuan Liu, Hao Tan, Zhan Xu, Yang Zhou, Serena Yeung Levy, Jimei Yang
在本文中，我们介绍了 Human LRM，这是一种单级前馈大型重建模型，旨在从单个图像预测人类神经辐射场 NeRF。我们的方法在使用包含 3D 扫描和多视图捕获的广泛数据集进行训练时表现出卓越的适应性。此外，为了增强模型在野外场景（尤其是遮挡情况下）的适用性，我们提出了一种新策略，通过条件三平面扩散模型将多视图重建提炼为单视图。这种生成扩展解决了从单一视图观察时人体形状的固有变化，并且使得从遮挡图像重建人体全身成为可能。

SpatialVLM: Endowing Vision-Language Models with Spatial Reasoning Capabilities
Authors Boyuan Chen, Zhuo Xu, Sean Kirmani, Brian Ichter, Danny Driess, Pete Florence, Dorsa Sadigh, Leonidas Guibas, Fei Xia
理解和推理空间关系是视觉问答 VQA 和机器人技术的基本能力。虽然视觉语言模型 VLM 在某些 VQA 基准测试中表现出了出色的性能，但它们仍然缺乏 3D 空间推理功能，例如识别物理对象的定量关系（例如距离或大小差异）。我们假设 VLM 空间推理能力有限是由于训练数据中缺乏 3D 空间知识，并旨在通过使用互联网规模的空间推理数据训练 VLM 来解决这个问题。为此，我们提出了一个系统来促进这种方法。我们首先开发了一个自动 3D 空间 VQA 数据生成框架，可在 1000 万张现实世界图像上扩展至 20 亿个 VQA 示例。然后，我们研究训练方案中的各种因素，包括数据质量、训练管道和 VLM 架构。我们的工作是度量空间中第一个互联网规模的 3D 空间推理数据集。通过在此类数据上训练 VLM，我们显着增强了其定性和定量空间 VQA 的能力。最后，我们证明了该 VLM 由于其定量估计能力，在思想链空间推理和机器人技术中解锁了新颖的下游应用。

Semi-supervised segmentation of land cover images using nonlinear canonical correlation analysis with multiple features and t-SNE
Authors Hong Wei, James Xiao, Yichao Zhang, Xia Hong
图像分割是一项聚类任务，其中每个像素都被分配一个聚类标签。遥感数据通常由多个光谱图像组成，其中存在语义上有意义的土地覆盖子区域，与其他源数据（例如激光雷达光检测和测距数据（如果有））共同注册。这表明，为了考虑像素之间的空间相关性，与每个像素相关联的特征向量可以是表示多个频带和适当的局部补丁的向量化张量。类似地，基于像素局部补丁的多种类型的纹理特征也将有利于编码局部统计信息和空间变化，而不必按像素标记大量地面实况，然后训练监督模型，这有时是不切实际的。在这项工作中，通过仅标记少量像素，提出了一种新的半监督分割方法。最初，在所有像素上，在高维特征空间中创建图像数据矩阵。然后，t SNE 将高维数据投影到 3D 嵌入上。通过使用径向基函数作为输入特征，使用标记数据样本作为中心，与输出类标签配对，引入了一种改进的规范相关分析算法，称为 RBF CCA，该算法通过小标记数据集。通过 k 均值聚类算法应用针对完整图像获得的相关典型变量。

Automated facial recognition system using deep learning for pain assessment in adults with cerebral palsy
Authors lvaro Sabater G rriz, F. Xavier Gaya Morey, Jos Mar a Buades Rubio, Cristina Manresa Yee, Pedro Montoya, Inmaculada Riquelme
背景对患有神经系统疾病的个体，特别是那些自我报告能力有限和面部表情改变的个体进行疼痛评估提出了挑战。现有的措施依赖于护理人员的直接观察，缺乏敏感性和特异性。在脑瘫中，疼痛是一种常见的合并症，可靠的评估方案至关重要。

Out-of-Distribution Detection & Applications With Ablated Learned Temperature Energy
Authors Will LeVine, Benjamin Pikus, Jacob Phillips, Berk Norman, Fernando Amat Gil, Sean Hendryx
随着深度神经网络在高风险领域得到采用，至关重要的是能够识别推理输入何时超出分布 OOD，以便用户在高置信度的情况下能够收到性能和校准可能下降的警报。除许多其他方法外，现有方法使用以下两个分数来实现此目的，而无需对任何先验 OOD 示例进行训练：学习温度和能量分数。在本文中，我们介绍了消融学习温度能量（Ablated LearnedTemperature Energy）或简称 AbeT，这种方法以新颖的方式结合了这些现有方法并进行了有效的修改。由于这些贡献，与最先进的技术相比，AbeT 将所有 ID 和 OOD 数据集测量的分类平均误报率（真阳性率 FPR 95）降低了 35.39，无需多阶段训练网络或需要超参数或测试时间向后传递。我们还提供了关于我们的模型如何学习区分分布中 ID 和 OOD 样本的经验见解，同时仅通过在训练时接触错误分类的 ID 示例来对 ID 样本进行显式训练。最后，我们展示了我们的方法在对象检测和语义分割中识别与 OOD 对象相对应的预测边界框和像素的功效，分别在对象检测中 AUROC 增加了 5.15，FPR 95 减少了 41.48，并且 FPR 95 增加了 41.48。

CloSe: A 3D Clothing Segmentation Dataset and Model
Authors Dimitrije Anti , Garvita Tiwari, Batuhan Ozcomlekci, Riccardo Marin, Gerard Pons Moll
3D 服装建模和数据集在娱乐、动画和数字时尚行业中发挥着至关重要的作用。现有的工作通常缺乏详细的语义理解或使用合成数据集，缺乏现实性和个性化。为了解决这个问题，我们首先引入 CloSe D 一个新颖的大规模数据集，其中包含 3167 次扫描的 3D 服装分割，涵盖 18 个不同的服装类别。此外，我们提出了 CloSe Net，这是第一个基于学习的 3D 服装分割模型，用于从彩色点云进行细粒度分割。 CloSe Net 使用局部点特征、身体服装相关性以及基于服装类别和点特征的注意模块，相对于基线和之前的工作提高了性能。所提出的注意力模块使我们的模型能够先从数据中学习外观和几何相关的服装。我们通过成功分割公开的穿着服装的人数据集，进一步验证了我们方法的有效性。我们还推出了 CloSe T，一种用于细化分割标签的 3D 交互式工具。在持续学习设置中将该工具与 CloSe T 相结合，展示了对现实世界数据的改进概括。

Look, Listen and Recognise: Character-Aware Audio-Visual Subtitling
Authors Bruno Korbar, Jaesung Huh, Andrew Zisserman
本文的目标是自动生成字符感知字幕。给定视频和最少量的元数据，我们提出了一种视听方法，可以生成完整的对话记录，具有精确的语音时间戳和已识别的说话角色。关键思想是首先使用视听提示为每个角色选择一组高精度音频样本，然后使用这些样本根据说话者身份对所有语音片段进行分类。值得注意的是，该方法不需要面部检测或跟踪。我们在各种电视情景喜剧中评估了该方法，包括《宋飞正传》、《弗莱泽》和《实习医生风云》。我们预计该系统可用于自动生成字幕，以提高现代流媒体服务上大量视频的可访问性。

Modeling Stereo-Confidence Out of the End-to-End Stereo-Matching Network via Disparity Plane Sweep
Authors Jae Young Lee, Woonghyun Ka, Jaehyun Choi, Junmo Kim
我们提出了一种新颖的立体置信度，可以在各种立体匹配网络的外部进行测量，为基于学习的方法提供成本量的替代输入模式选择，特别是在安全关键系统中。基于视差定义和视差平面扫描的基本概念，所提出的立体置信方法建立在立体图像对中的任何移位都应以视差图中相应的移位量进行更新的思想之上。基于这个想法，所提出的立体置信度方法可以概括为三个方面。 1 使用视差平面扫描，可以获得多个视差图，并将其视为3D体积预测视差体积，就像构建成本体积一样。 2 这些视差图之一充当锚点，使我们能够在每个空间点定义理想或理想的视差轮廓。 3 通过比较所需的和预测的视差分布，我们可以量化左右图像之间的匹配模糊度水平，以进行置信度测量。

Observation-Guided Meteorological Field Downscaling at Station Scale: A Benchmark and a New Method
Authors Zili Liu, Hao Chen, Lei Bai, Wenyuan Li, Keyan Chen, Zhengyi Wang, Wanli Ouyang, Zhengxia Zou, Zhenwei Shi
气象变量降尺度DS涉及从低分辨率气象场获取高分辨率状态，是天气预报中的一项重要任务。先前基于深度学习的方法将降尺度视为计算机视觉中的超分辨率任务，并利用高分辨率网格气象场作为监督来提高特定网格尺度的分辨率。然而，这种方法难以符合气象场的连续分布特征，导致降尺度结果与气象站的实际观测之间存在固有的系统偏差。在本文中，我们将气象降尺度扩展到任意分散的站点尺度，建立全新的基准和数据集，并从粗分辨率气象场中检索任意给定站点位置的气象状态。受数据同化技术的启发，我们将观测数据整合到降尺度过程中，提供多尺度观测先验。在此基础上，我们提出了一种基于超网络架构的新型降尺度模型，即HyperDS，它将不同的观测信息有效地整合到模型训练中，实现了气象领域的连续尺度建模。通过大量的实验，我们提出的方法在多个表面变量上优于其他专门设计的基线模型。值得注意的是，与其他方法相比，风速和表面压力的均方误差 MSE 分别提高了 67 和 19.5。

Feature Denoising Diffusion Model for Blind Image Quality Assessment
Authors Xudong Li, Jingyuan Zheng, Runze Hu, Yan Zhang, Ke Li, Yunhang Shen, Xiawu Zheng, Yutao Liu, ShengChuan Zhang, Pingyang Dai, Rongrong Ji
盲图像质量评估 BIQA 旨在评估符合人类感知的图像质量，无需参考基准。目前，深度学习 BIQA 方法通常依赖于使用高级任务的特征进行迁移学习。然而，BIQA 和这些高级任务之间的固有差异不可避免地会给质量感知功能带来噪音。在本文中，我们迈出了探索 BIQA 中特征去噪的扩散模型的第一步，即 IQA PFD IQA 的感知特征扩散，其目的是从质量感知特征中去除噪声。具体来说，我们提出了一个感知先验发现和聚合模块来建立两个辅助任务，以发现图像中潜在的低级特征，这些特征用于聚合扩散模型的感知文本条件。 ii 我们提出了一种基于感知先验的特征细化策略，它将噪声特征与预定义的去噪轨迹相匹配，然后根据文本条件执行精确的特征去噪。

A Saliency Enhanced Feature Fusion based multiscale RGB-D Salient Object Detection Network
Authors Rui Huang, Qingyi Zhao, Yan Xing, Sihua Gao, Weifeng Xu, Yuxiang Zhang, Wei Fan
多尺度卷积神经网络CNN在解决各种视觉问题方面表现出了卓越的能力。然而，融合不同尺度的特征总是会导致模型尺寸过大，阻碍了多尺度 CNN 在 RGB D 显着性检测中的应用。在本文中，我们提出了一种定制的特征融合模块，称为显着性增强特征融合 SEFF，用于 RGB D 显着性检测。 SEFF 利用相邻尺度的显着性图来增强融合所需的特征，从而产生更具代表性的融合特征。我们的多尺度 RGB D 显着性检测器使用 SEFF 并处理具有三种不同尺度的图像。 SEFF用于融合RGB和深度图像的特征，以及不同尺度的解码器的特征。

Large receptive field strategy and important feature extraction strategy in 3D object detection
Authors Leichao Cui, Xiuxian Li, Min Meng
3D 物体检测的增强对于自动驾驶中精确的环境感知和提高任务执行能力至关重要。激光雷达点云提供准确的深度信息，是实现这一目的的关键信息。我们的研究重点是 3D 目标检测中的关键挑战。为了应对扩展 3D 卷积核感受野的挑战，我们引入了动态特征融合模块 DFFM。该模块实现了 3D 卷积核感受野的自适应扩展，平衡扩展与可接受的计算负载。这一创新减少了操作，扩大了感受野，并允许模型动态调整以适应不同的对象要求。同时，我们识别 3D 特征中的冗余信息。利用特征选择模块FSM定量评估并剔除不重要的特征，实现输出框拟合和特征提取的分离。这项创新使检测器能够专注于关键特征，从而实现模型压缩、减少计算负担并最大限度地减少候选帧干扰。大量实验证实，DFFM 和 FSM 不仅增强了当前的基准测试，特别是在小目标检测方面，而且还提高了网络性能。

Evaluating the Feasibility of Standard Facial Expression Recognition in Individuals with Moderate to Severe Intellectual Disabilities
Authors F. Xavier Gaya Morey, Silvia Ramis, Jose M. Buades Rubio, Cristina Manresa Yee
最近的研究强调了用户越来越倾向于与机器进行类人交互。因此，面部表情识别作为赋予社交机器人辨别用户情绪状态能力的一种手段，具有重要意义。在这项调查中，我们评估了深度学习方法的适用性，该方法以其在该领域的卓越表现而闻名，用于识别智障人士的面部表情，据我们所知，尚未在文献中进行过研究。为了实现这一目标，我们用不同的方法训练了一组十二个不同的卷积神经网络，包括一组没有智障人士的数据集和一个包含智障人士的数据集。我们对各种模型在不同训练条件下取得的结果进行了检查，再加上可解释的人工智能技术促进的表情识别过程中关键面部区域的全面分析，揭示了智力障碍者和非智力障碍者之间面部表情的显着差异。就像智力障碍人士一样。

Detect-Order-Construct: A Tree Construction based Approach for Hierarchical Document Structure Analysis
Authors Jiawei Wang, Kai Hu, Zhuoyao Zhong, Lei Sun, Qiang Huo
文档结构分析又名文档布局分析对于理解文档的物理布局和逻辑结构至关重要，可应用于信息检索、文档摘要、知识提取等。在本文中，我们专注于层次文档结构分析 HDSA 来探索层次关系使用采用分层模式的创作软件（例如 LaTeX、Microsoft Word 和 HTML）创建的结构化文档中。为了全面分析分层文档结构，我们提出了一种基于树结构的方法，该方法可以同时处理多个子任务，包括页面对象检测 Detect 、识别对象的阅读顺序预测 Order 以及构建预期的分层结构 Construct 。我们基于该框架提出了一个有效的端到端解决方案来展示其性能。为了评估我们的方法，我们开发了一个名为 Comp HRDoc 的综合基准，它同时评估上述子任务。我们的端到端系统在两个大型文档布局分析数据集 PubLayNet 和 DocLayNet、高质量分层文档结构重建数据集 HRDoc 以及我们的 Comp HRDoc 基准上实现了最先进的性能。

SignVTCL: Multi-Modal Continuous Sign Language Recognition Enhanced by Visual-Textual Contrastive Learning
Authors Hao Chen, Jiaze Wang, Ziyu Guo, Jinpeng Li, Donghao Zhou, Bian Wu, Chenyong Guan, Guangyong Chen, Pheng Ann Heng
手语识别 SLR 在促进听力障碍社区的沟通方面发挥着至关重要的作用。 SLR 是一项弱监督任务，整个视频都用注释进行注释，因此很难识别视频片段中相应的注释。最近的研究表明，SLR 的主要瓶颈是由于大规模数据集的可用性有限而导致的训练不足。为了应对这一挑战，我们提出了 SignVTCL，这是一种通过视觉文本对比学习增强的多模态连续手语识别框架，它充分利用了多模态数据的潜力和语言模型的泛化能力。 SignVTCL 同时集成多模态数据视频、关键点和光流来训练统一的视觉主干，从而产生更强大的视觉表示。此外，SignVTCL 包含一种视觉文本对齐方法，结合了注释级别和句子级别对齐，以确保视觉特征和注释在单个注释和句子级别上的精确对应。

Adaptive Fusion of Multi-view Remote Sensing data for Optimal Sub-field Crop Yield Prediction
Authors Francisco Mena, Deepak Pathak, Hiba Najjar, Cristhian Sanchez, Patrick Helber, Benjamin Bischke, Peter Habelitz, Miro Miranda, Jayanth Siddamsetty, Marlon Nuske, Marcela Charfuelan, Diego Arenas, Michaela Vollmer, Andreas Dengel
准确的作物产量预测对于农业决策、帮助农民和行业利益相关者至关重要。然而，这项任务很复杂，取决于多种因素，例如环境条件、土壤特性和管理实践。组合异构数据视图带来了融合挑战，例如识别视图对预测任务的特定贡献。我们提出了一种新颖的多视图学习方法来预测不同作物大豆、小麦、油菜籽以及阿根廷、乌拉圭和德国地区的作物产量。我们的多视图输入数据包括来自 Sentinel 2 卫星的多光谱光学图像和天气数据，作为作物生长季节的动态特征，并辅以土壤特性和地形信息等静态特征。为了有效地融合数据，我们引入了多视图门控融合 MVGF 模型，包括专用视图编码器和门控单元 GU 模块。视图编码器通过学习视图特定表示来处理具有不同时间分辨率的数据源的异构性。这些表示通过加权和自适应地融合。 GU 使用视图表示的串联来计算每个样本的融合权重。 MVGF 模型在子场级别以 10 m 分辨率像素进行训练。我们的评估表明，MVGF 在相同任务上优于传统模型，通过合并所有数据源实现了最佳结果，这与文献中通常的融合结果不同。对于阿根廷来说，MVGF模型在子田产量预测方面达到了0.68的R2值，而在比较田间平均水平的田间评估中，不同国家的R2值达到了0.80左右。

Unveiling the Human-like Similarities of Automatic Facial Expression Recognition: An Empirical Exploration through Explainable AI
Authors F. Xavier Gaya Morey, Silvia Ramis Guarinos, Cristina Manresa Yee, Jose M. Buades Rubio
面部表情识别对于人类行为分析至关重要，深度学习使模型能够超越人类。然而，尚不清楚它们模仿人类处理的程度如何。本研究旨在通过比较 12 种不同的网络（包括通用对象分类器和 FER 特定模型）来探索深度神经网络和人类感知之间的相似性。我们采用创新的全局可解释人工智能方法来生成热图，揭示受六种面部表情训练的十二个网络的关键面部区域。我们定量和定性地评估这些结果，将它们与基于弗里森和埃克曼的描述的地面真实掩模进行比较。我们使用 Intersection over Union IoU 和归一化相关系数进行比较。我们生成 72 个热图来突出显示每个表达式和架构的关键区域。定性地讲，与没有预训练的模型相比，经过预训练权重的模型在热图中表现出更多的相似性。具体来说，眼睛和鼻子区域会影响某些面部表情，而嘴巴在所有模型和表情中始终很重要。从数量上看，我们发现平均 IoU 值较低。 0.2702 跨越所有表达式和架构。性能最佳的架构平均为 0.3269，而性能最差的架构平均为 0.2066。使用归一化相关系数构建的树状图揭示了大多数经过预训练的表达模型和未经预训练的模型的两个主要聚类。

A Fair Evaluation of Various Deep Learning-Based Document Image Binarization Approaches
Authors Richin Sukesh, Mathias Seuret, Anguelos Nicolaou, Martin Mayr, Vincent Christlein
文档图像二值化是文档分析领域中重要的预处理步骤。传统的图像二值化技术通常依赖于直方图或局部统计来识别有效阈值来区分图像的不同方面。深度学习技术能够通过学习上下文相关的特征来生成图像的二值化版本，这些特征不易出现文档图像中通常发生的退化错误。近年来，已经开发了许多基于深度学习的方法用于文档二值化。但选择哪一种还没有研究严格比较这些方法。因此，这项工作的重点是在同一评估协议下评估不同的基于深度学习的方法。我们在不同的文档图像二值化竞赛 DIBCO 数据集上对它们进行评估，并获得了非常异构的结果。我们表明，在 DIBCO2013 数据集上进行评估时，DE GAN 模型能够比其他模型表现更好，而 DP LinkNet 在 DIBCO2017 数据集上表现最好。 2 StageGAN 在 DIBCO2018 数据集上表现最好，而 SauvolaNet 在 DIBCO2019 挑战赛上表现优于其他模型。

Rethinking Centered Kernel Alignment in Knowledge Distillation
Authors Zikai Zhou, Yunhang Shen, Shitong Shao, Huanran Chen, Linrui Gong, Shaohui Lin</