TPAMI 2024 综述论文一览 Part1（12篇）(IEEE Transactions on Pattern Analysis and Machine Intelligence)

智尊宝人工智能社区

已于 2024-09-30 09:36:00 修改

阅读量2.6k

点赞数 35

分类专栏：人工智能研究热点追踪文章标签：深度学习人工智能计算机视觉 TPAMI 语言模型 SCI论文机器学习

于 2024-09-29 18:43:30 首次发布

本文链接：https://blog.csdn.net/weixin_42155685/article/details/142633654

版权

人工智能研究热点追踪专栏收录该内容

15 篇文章

订阅专栏

TPAMI 2024 综述论文一览 Part1（12篇）(IEEE Transactions on Pattern Analysis and Machine Intelligence)

Deep Learning for Visual Speech Analysis: A Survey

文章解读: 视觉语音分析的深度学习：综述

文章链接: (10.1109/TPAMI.2024.3376710)

在这里插入图片描述

《Deep Learning for Visual Speech Analysis: A Survey》是一篇综述论文，主要探讨了深度学习在视觉语音分析中的应用。该论文涵盖了视觉语音识别与生成技术的进展，包括基本问题、挑战、基准数据集、现有方法的分类和最先进的性能。此外，论文还指出了现有研究的不足，并对未来的研究方向进行了探讨。

A Survey on Information Bottleneck

文章解读: 信息瓶颈综述

文章链接: (10.1109/TPAMI.2024.3366349)

在这里插入图片描述

《A Survey on Information Bottleneck》这篇综述文章主要探讨了信息瓶颈（Information Bottleneck, IB）理论及其在模式分析和表示学习中的应用。信息瓶颈理论由Naftali Tishby等人于1999年提出，旨在通过最大化输入与输出之间的互信息，同时最小化输入与隐藏层之间的互信息来实现数据的最优表示。该理论认为，神经网络在训练过程中会经历两个阶段：快速拟合阶段和压缩阶段，在这两个阶段中，互信息的变化轨迹被用来解释深度学习的工作原理。此外，信息瓶颈理论也被用于解释深度学习模型的泛化能力，并有望揭示其内部工作原理。

A Comprehensive Survey on Source-Free Domain Adaptation

文章解读: 无源域自适应研究综述

文章链接: (10.1109/TPAMI.2024.3370978)

在这里插入图片描述

《A Comprehensive Survey on Source-Free Domain Adaptation》是一篇关于无源域适应（Source-Free Domain Adaptation, SFDA）的综述文章，发表在IEEE Transactions on Pattern Analysis and Machine Intelligence (TPAMI)上。

Vision-Language Models for Vision Tasks: A Survey

文章解读: 视觉任务的视觉语言模型：综述

文章链接: (10.1109/TPAMI.2024.3369699)

在这里插入图片描述

《Vision-Language Models for Vision Tasks: A Survey》是一篇综述文章，旨在全面梳理和总结针对视觉识别任务的大型视觉语言模型（VLMs）的最新发展。文章首先回顾了视觉识别技术的发展历程，并介绍了视觉语言模型的基础知识。视觉语言模型通过从互联网上几乎无限的图像文本对中学习丰富的视觉语言关系，能够在单一模型中实现对各种视觉识别任务的零次学习。这种模型减少了对大量精细标注数据的依赖，显著简化了视觉识别任务的流程。

Delving Into the Devils of Bird’s-Eye-View Perception: A Review, Evaluation and Recipe

文章解读: 探究鸟瞰感知的魔鬼：回顾、评价和秘法

文章链接: (10.1109/TPAMI.2023.3333838)

在这里插入图片描述

Human Motion Generation: A Survey

文章解读: 人体运动生成：综述

文章链接: (10.1109/TPAMI.2023.3330935)

在这里插入图片描述

《Human Motion Generation: A Survey》是一篇发表于计算机视觉领域顶级期刊TPAMI 2023的综述论文，由北京大学博雅特聘教授王亦洲课题组与北京大学艺术学院高峰助理教授、华为云首席科学家田奇博士合作完成。这篇综述首次全面总结了人体动作生成领域的相关研究工作，介绍了人体运动和生成模型的基础知识，并对三个主流子任务（基于文本、音频和场景驱动的人体动作生成）进行了详细探讨。

Unsupervised Domain Adaptation of Object Detectors: A Survey

文章解读: 目标检测器的无监督域自适应：综述

文章链接: (10.1109/TPAMI.2022.3217046)

在这里插入图片描述

《Unsupervised Domain Adaptation of Object Detectors: A Survey》是一篇综述性论文，主要探讨了无监督域自适应在目标检测中的应用和方法。这篇综述涵盖了域自适应问题的挑战、策略以及未来的研究方向。它讨论了如何利用未标记的目标域数据来适应已标记的源域数据，从而解决由于域偏移导致的性能下降问题。常见的方法包括对抗学习、图像到图像的翻译、教师-学生框架等。此外，该综述还强调了无监督域自适应在目标检测中的重要性和广泛应用。

3D Object Detection From Images for Autonomous Driving: A Survey

文章解读: 自动驾驶图像中的3D目标检测：综述

文章链接: (10.1109/TPAMI.2023.3346386)

在这里插入图片描述

《3D Object Detection for Autonomous Driving: A Survey》是一篇综述文章，主要探讨了自动驾驶中三维目标检测技术的现状和挑战。三维目标检测是自动驾驶感知系统的基础，用于获取物体在三维空间中的位置和类别信息，这对路径规划、运动预测和碰撞避免具有重要作用。文章指出，摄像头传感器因其丰富的颜色和纹理信息以及低成本而被广泛应用于自动驾驶中。此外，深度学习技术的发展极大地推动了这一领域的进步，但仍有改进空间。

The Impact of Adversarial Attacks on Federated Learning: A Survey

文章解读: 对抗性攻击对联邦学习的影响：综述
 文章链接: (10.1109/TPAMI.2023.3322785)

在这里插入图片描述

《The Impact of Adversarial Attacks on Federated Learning: A Survey》这篇综述文章探讨了对抗性攻击对联邦学习（FL）的影响。联邦学习是一种分布式机器学习技术，通过在本地设备上进行模型训练并持续交互模型参数来完成训练任务，从而有效解决了集中式机器学习模型中的数据泄露和隐私风险问题。然而，由于其去中心化的特性，联邦学习容易受到恶意攻击的威胁，例如数据投毒攻击和深度梯度反演攻击等。这些攻击可能导致全局模型输出不正确的结果，甚至破坏训练过程。

为了应对这些挑战，研究者们提出了多种防御策略，包括基于扰动变换的防御方法、选择性防御策略以及利用异常检测增强联邦优化算法的防御系统。这些防御措施旨在提高联邦学习系统的鲁棒性，减少对抗性攻击带来的负面影响。

Structured Pruning for Deep Convolutional Neural Networks: A Survey

文章解读: 深度卷积神经网络的结构化剪枝：综述

文章链接: (10.1109/TPAMI.2023.3334614)

在这里插入图片描述
《Structured Pruning for Deep Convolutional Neural Networks: A Survey》这篇综述文章详细探讨了深度卷积神经网络（CNN）的结构化剪枝技术。结构化剪枝是一种专注于对更大结构进行修剪的方法，例如修剪整个神经元或直接修剪卷积过滤器。这种方法特别适用于大型网络，这些网络通常包含许多卷积层，每个层中包含数百或数千个过滤器。

文章总结并比较了最新的结构化剪枝技术，这些技术包括滤波器排序方法、正则化方法、动态执行、神经架构搜索、彩票假设以及修剪的应用。例如，Nonnenmacher等人提出的二阶结构化修剪（SOSP）通过选择性地将滤波器掩码清零，以最大限度地减少删除某些滤波器造成的损失变化的影响。

文章还强调了有前景的未来研究方向，并为针对不同应用需求选择合适的剪枝方法提供了宝贵的建议。例如，基于GA的卷积神经网络结构化剪枝算法通过全局搜索空间对模型各层卷积核进行结构化剪枝，并以“高检测精度，低网络规模”为准则建立适应度函数，解决传统权重剪枝易陷入局部最优和剪枝结果对硬件平台不友好问题。

总的来说，这篇综述为深度CNN的结构化剪枝技术提供了一个全面的视角，涵盖了多种先进的剪枝方法及其应用前景。

Semi-Supervised and Unsupervised Deep Visual Learning: A Survey

文章解读: 半监督和无监督深度视觉学习：综述

文章链接: (10.1109/TPAMI.2022.3201576)

在这里插入图片描述

《半监督和无监督深度视觉学习：综述》由德国蒂宾根大学发布，涵盖了322篇文献，从统一的角度综述了视觉识别领域的半监督学习（SSL）和无监督学习（UL）深度学习算法。该综述旨在全面了解这些领域的最新技术，并提出了一个统一的分类法。

Sequential Point Clouds: A Survey

文章解读: 序列点云：综述

文章链接: (10.1109/TPAMI.2024.3365970)

在这里插入图片描述

《Sequential Point Clouds: A Survey》是一篇综述文章，发表于2024年2月14日，主要探讨了序列点云数据及其在自动驾驶和机器人操作等应用中的重要性。文章指出，尽管静态点云数据提供了丰富的场景和对象信息，但在许多实际应用中，如自动驾驶和机器人操作，需要考虑时间维度，因此引入了四维数据。