自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(48)
  • 资源 (1)
  • 收藏
  • 关注

原创 【弱监督视频异常检测】2024-TCSVT-基于片段间特征相似度的多尺度时间 MLP 弱监督视频异常检测

弱监督视频异常检测(WSVAD)的主要范例是将其视为多实例学习(MIL)问题,仅使用视频级标签进行训练。由于异常的稀有性和模糊性,潜在异常训练样本的选择是 WSVAD 的主要挑战。考虑到异常事件的时间相关性和长度变化,如何整合时间信息也是 WSVAD 领域的一个有争议的话题。为了解决上述问题,我们提出了一种新方法,即基于片段间特征相似度的视频异常检测(IFS-VAD)。在提出的 IFS-VAD 中,为了利用全局和局部时间关系,利用了多尺度时间 MLP(MT-MLP)。

2024-12-27 19:40:33 1158

原创 【AIGC】2024-CVPR-分析和改进扩散模型的训练动态

扩散模型目前以其无与伦比的大数据集扩展能力在数据驱动图像合成领域占据主导地位。在本文中,我们在不改变其高级结构的情况下,确定并纠正了流行的 ADM 扩散模型架构中训练不均匀和无效的几个原因。在训练过程中观察到网络激活和权重中不受控制的幅度变化和不平衡,我们重新设计了网络层以保持激活、权重和更新幅度的预期。我们发现,系统地应用这种理念可以消除观察到的漂移和不平衡,从而在同等计算复杂度下产生更好的网络。我们的修改将 ImageNet-512 合成中之前的 FID 记录从 2.41 提高到 1.81.

2024-12-25 21:31:49 1280

原创 【AIGC】2016-ACCV-即时追捕:自然环境下的自动唇音同步

这项工作的目标是确定视频中嘴部运动和语音之间的音频视频同步。我们提出了一种双流 ConvNet 架构,该架构能够从未标记的数据中端到端地训练声音和嘴部图像之间的映射。经过训练的网络用于确定视频中的唇同步误差。我们将网络应用于另外两个任务:主动说话人检测和唇读。在这两项任务上,我们都在标准基准数据集上创下了新纪录。

2024-12-09 21:36:05 1150

原创 【AIGC】2020-ACM-口型同步专家是您在自然环境生成语音到唇型所需的一切

在本研究中,我们研究了对任意身份的说话人脸视频进行口型同步以匹配目标语音片段的问题。当前的研究擅长在训练阶段在静态图像或特定人物的视频上产生准确的唇部运动。然而,它们无法准确地改变动态、不受约束的说话人脸视频中任意身份的唇部运动,导致视频的大部分与新音频不同步。我们确定了与此有关的关键原因,并通过向强大的口型同步鉴别器学习来解决这些问题。接下来,我们提出了新的、严格的评估基准和指标,以准确测量不受约束的视频中的口型同步。

2024-12-05 20:39:00 528

原创 【AIGC】2024-arXiv-MuseTalk:实时高质量口型同步与潜在空间修复

在人脸视觉配音中实现高分辨率、身份一致性和准确的口型同步是一项重大挑战,特别是对于像直播这样的实时应用而言。我们提出了 MuseTalk,它在由变分自编码器编码的潜在空间中生成口型同步目标,从而能够通过高效的推理生成高保真度的说话人脸视频。具体来说,我们将被遮挡的下半部分人脸图像和其本身作为参考投影到低维潜在空间中,并使用多尺度 U-Net 融合各个级别的音频和视觉特征。我们进一步提出了一种新颖的训练采样策略,该策略选择头部姿势与目标紧密匹配的参考图像,通过滤除冗余信息,使模型能够专注于精确的唇部运动。

2024-12-04 16:13:52 1711

原创 【AIGC】2023-ICCV-用于高保真语音肖像合成的高效区域感知神经辐射场

本文介绍了一种基于条件神经辐射场(Neu-ral Radiance Fields,NeRF)的新型说话肖像合成架构 ER-NeRF,它可以同时实现快速收敛、实时渲染和小模型尺寸的领先性能。我们的想法是明确利用空间区域的不平等贡献来指导说话肖像建模。具体而言,为了提高动态头部重建的准确性,通过使用三平面哈希编码器修剪空空间区域,引入了一种紧凑且富有表现力的基于 NeRF 的三平面哈希(Tri-Plane Hash Representation)表示。通过注意机制生成区。

2024-11-29 16:46:46 1315

原创 【AIGC】2021-CVPR-驯服 Transformer 以实现高分辨率图像合成

Transformer 旨在学习序列数据的长程交互,它在各种任务上继续展现出最佳效果。与 CNN 相比,它们不包含优先考虑局部交互的归纳偏差。这使得它们具有表现力,但对于长序列(例如高分辨率图像)在计算上也不可行。我们展示了如何将 CNN 的归纳偏差的有效性与 Transformer 的表现力相结合,使它们能够建模并从而合成高分辨率图像。我们展示了如何(i)使用 CNN 学习上下文丰富的图像成分词汇表,以及(ii)利用 Transformer 在高分辨率图像中有效地建模它们的组成。

2024-11-21 12:42:59 489

原创 【弱监督视频异常检测】2024-ESWA-基于扩散的弱监督视频异常检测常态预训练

弱监督视频异常检测是在训练阶段检测视频中未提供帧级标签的异常帧的任务。以前的方法通常采用基于多实例学习(MIL)的排名损失来确保类间分离。然而,这些方法无法充分利用大量正常帧中的信息。此外,这些方法的性能受到基于 MIL 的分类器的错误初始预测的误导。考虑到这些缺点,我们提出了一种基于扩散的常态学习预训练步骤,首先涉及仅使用正常视频训练全局局部特征编码器(GLFE)模型以了解正常帧的特征分布。使用多序列对比损失使用正常和异常视频进一步优化生成的预训练全局局部特征编码器。

2024-11-14 16:30:10 1664 1

原创 【AIGC】2017-NIPS-神经离散表征学习

在没有监督的情况下学习有用的表示仍然是机器学习的一个关键挑战。在本文中,我们提出了一个简单但功能强大的生成模型来学习这种离散表示。我们的模型,矢量量化变分自动编码器(VQ-VAE),与 VAE 在两个关键方面有所不同:编码器网络输出离散代码,而不是连续代码;先验是学习的,而不是静态的。为了学习离散潜在表示,我们结合了矢量量化(VQ)的思想。使用 VQ 方法允许模型规避 “后验崩溃” 问题 - 当潜在表示与强大的自回归解码器配对时,它们会被忽略 - 通常在 VAE 框架中观察到。

2024-11-11 21:43:54 1053

原创 【AIGC】2024-arXiv-BrushNet:一种具有分解双分支扩散的即插即用图像修复模型

图像修复是恢复损坏图像的过程,随着扩散模型(DM)的出现,该过程取得了重大进展。尽管取得了这些进展,但当前针对修复的 DM 改编(涉及对采样策略的修改或开发特定于修复的 DM)经常遭受语义不一致和图像质量下降的影响。为了应对这些挑战,我们的工作引入了一种新颖的范式:将掩码图像特征和嘈杂的潜在特征划分为单独的分支。这种划分大大减少了模型的学习负担,有助于以分层方式细致入微地整合必要的掩码图像信息。在此,我们提出了 BrushNet,这是一种新颖的即插即用双分支模型。

2024-11-05 14:29:19 1360

原创 【AIGC】2024-arXiv-Lumiere:视频生成的时空扩散模型

我们引入了 Lumiere,这是一种文本到视频的扩散模型,旨在合成能够描绘真实、多样且连贯的运动的视频,这是视频合成中的一项关键挑战。为此,我们引入了一种时空 U-Net 架构,该架构通过模型中的一次传递即可一次性生成视频的整个时间持续时间。这与现有的视频模型形成了鲜明对比,现有的视频模型先合成远距离关键帧,然后进行时间超分辨率处理,这种方法本质上很难实现全局时间一致性。通过部署空间和(重要的)时间上下采样并利用预先训练的文本到图像扩散模型。

2024-10-29 22:06:42 1649

原创 【AIGC】2024-arXiv-CtrLoRA:一种可扩展且高效的可控图像生成框架

最近,大规模扩散模型在文本到图像(T2I)生成方面取得了令人瞩目的进展。为了进一步使这些 T2I 模型具备细粒度的空间控制能力,ControlNet 等方法引入了一个额外的网络来学习遵循条件图像。但是,对于每一种条件类型,ControlNet 都需要对数百万个数据对进行独立训练,耗费数百个 GPU 小时,这非常昂贵,并且使普通用户难以探索和开发新类型的条件。为了解决这个问题,我们提出了 CtrLoRA 框架,该框架训练 Base ControlNet 以从多个基本条件中学习图像到图像生成的常识。

2024-10-29 13:42:19 1531

原创 【AIGC】2024-ECCV-ControlNet++:通过有效的一致性反馈改进条件控制

为了增强文本到图像传播模型的可控性,现有的努力(如 ControlNet)结合了基于图像的条件控制。在本文中,我们揭示了现有方法在生成与图像条件控制一致的图像方面仍然面临重大挑战。为此,我们提出了 ControlNet++,这是一种通过明确优化生成的图像和条件控制之间的像素级循环一致性来改进可控生成的新方法。具体而言,对于输入条件控制,我们使用预先训练的判别奖励模型来提取生成的图像的相应条件,然后优化输入条件控制和提取的条件之间的一致性损失。

2024-10-26 15:51:37 1545

原创 【AIGC】2023-ICCV-为文本到图像的传播模型添加条件控制

我们提出了 ControlNet,这是一种神经网络架构,用于向大型、预训练的文本到图像扩散模型添加空间调节控制。ControlNet 锁定了可用于生产的大型扩散模型,并重新使用经过数十亿张图像预训练的深度和稳健编码层作为强大的主干,以学习一组多样化的条件控制。神经架构与“零卷积”(零初始化卷积层)相连,这些卷积层从零开始逐步增加参数并确保没有有害噪音会影响微调。我们使用稳定扩散测试了各种条件控制,例如边缘、深度、分割、人体姿势等,使用单个或多个条件,有或没有提示。

2024-10-24 16:18:27 1121

原创 【AIGC】2024-arXiv-InstantStyle:文本到图像生成中保持风格的免费午餐

基于无调节扩散的模型在图像个性化和定制领域表现出了巨大的潜力。然而,尽管取得了显著进展,目前的模型在生成风格一致的图像方面仍然面临着一些复杂的挑战。首先,风格的概念本质上是不确定的,包括颜色、材料、氛围、设计和结构等多种元素。其次,基于反转的方法容易导致风格退化,通常会导致细粒度细节的丢失。最后,基于适配器的方法通常需要对每个参考图像进行细致的权重调整,以在风格强度和文本可控性之间取得平衡。在本文中,我们首先研究几个引人注目但经常被忽视的观察结果。

2024-10-20 20:33:19 938

原创 【AIGC】2024-arXiv-使用 B-LoRA 进行隐式风格-内容分离

图像风格化涉及处理图像的视觉外观和纹理(风格),同时保留其底层对象、结构和概念(内容)。风格和内容的分离对于独立于内容处理图像风格至关重要,可确保获得和谐且视觉上令人愉悦的效果。实现这种分离需要深入了解图像的视觉和语义特征,通常需要训练专门的模型或进行大量优化。在本文中,我们介绍了 B-LoRA,这是一种利用 LoRA(低秩自适应)隐式分离单个图像的风格和内容成分的方法,可促进各种图像风格化任务。

2024-10-20 17:48:41 1166

原创 【AIGC】2021-arXiv-LoRA:大型语言模型的低秩自适应

自然语言处理的一个重要范例是对通用领域数据进行大规模预训练,并适应特定任务或领域。随着我们对更大的模型进行预训练,完全微调(重新训练所有模型参数)变得不太可行。以 GPT-3 175B 为例 - 部署经过微调的模型的独立实例(每个实例有 175B 个参数)的成本过高。我们提出了低秩自适应(LoRA),它冻结了预训练的模型权重,并将可训练的秩分解矩阵注入 Transformer 架构的每一层,大大减少了下游任务的可训练参数数量。

2024-10-05 11:46:41 1538

原创 【AIGC】2022-NIPS-视频扩散模型

生成时间连贯的高保真视频是生成模型研究的一个重要里程碑。我们提出了一种视频生成扩散模型,并取得了非常有希望的初步结果,朝着这一里程碑迈进了一步。我们的模型是标准图像扩散架构的自然延伸,它能够从图像和视频数据进行联合训练,我们发现这可以减少小批量梯度的方差并加快优化速度。为了生成长视频和高分辨率视频,我们引入了一种新的条件采样技术,用于空间和时间视频扩展,其性能优于以前提出的方法。我们展示了大型文本条件视频生成任务的第一批结果,以及视频预测和无条件视频生成的既定基准的最新结果。

2024-10-04 17:20:14 1662

原创 【AIGC】2023-ICCV-使用 Transformer 的可扩展扩散模型

我们探索了一类基于 Transformer 架构的新型扩散模型。我们训练图像的潜在扩散模型,用在潜在 patchs 上运行的 Transformer 替换常用的 U-Net 主干。我们通过以 Gflops 为衡量标准的前向传递复杂度来分析我们的扩散 Transformer (DiT) 的可扩展性。我们发现,通过增加 Transformer 深度/宽度或增加输入 token 数量,具有更高 Gflops 的 DiT 始终具有较低的 FID。

2024-10-04 14:12:46 1187

原创 【AIGC】2022-CVPR-利用潜在扩散模型进行高分辨率图像合成

通过将图像形成过程分解为去噪自动编码器的顺序应用,扩散模型 (DM) 在图像数据及其他方面实现了最先进的合成结果。此外,它们的公式允许使用引导机制来控制图像生成过程而无需重新训练。但是,由于这些模型通常直接在像素空间中运行,因此强大的 DM 的优化通常需要数百个 GPU 天,并且由于顺序评估,推理成本高昂。为了在有限的计算资源上进行 DM 训练,同时保持其质量和灵活性,我们将它们应用于强大的预训练自动编码器的潜在空间。

2024-10-03 10:39:01 1592

原创 【AIGC】2020-NIPS-去噪扩散概率模型

我们使用扩散概率模型呈现了高质量的图像合成结果,扩散概率模型是一类受非平衡热力学启发的潜在变量模型。我们的最佳结果是通过对加权变分界限进行训练获得的,该界限是根据扩散概率模型与与朗之万动力学匹配的去噪分数之间的新联系而设计的,并且我们的模型自然地承认渐进式有损解压缩方案,该方案可以解释为自回归解码的泛化。在无条件 CIFAR10 数据集上,我们获得了 9.46 的初始分数和 3.17 的最先进的 FID 分数。在 256x256 LSUN 上,我们获得了与 ProgressiveGAN 类似的样本质量。

2024-10-02 22:20:11 988

原创 【弱监督动作识别】2022-CVPR-MS-TCT:用于动作检测的多尺度时间卷积 Transformer

动作检测是一项重要且具有挑战性的任务,尤其是在未经剪辑的视频的密集标记数据集中。此类数据由复杂的时间关系组成,包括复合或同时发生的动作。为了在这些复杂的设置中检测动作,有效捕获短期和长期时间信息至关重要。为此,我们提出了一种用于动作检测的新型“ConvTransformer”网络:MS-TCT。该网络由三个主要组件组成:(1)时间编码器模块,用于探索多个时间分辨率下的全局和局部时间关系;(2)时间尺度混合器模块,用于有效融合多尺度特征,创建统一的特征表示;(3)分类模块,用于学习每个动作实例随时间的中心。

2024-06-10 10:27:29 877

原创 【弱监督图异常检测】2023-CIKM-弱监督学习节点异常

图异常检测旨在识别非典型子结构,由于其对社交网络分析、安全、金融等各种应用领域的深远影响而吸引了越来越多的研究关注。缺乏对真实异常的先验知识一直是获取细粒度注释(例如异常节点)的主要障碍,因此,已经开发出大量现有方法,要么具有有限数量的节点级监督,要么具有 以无人监督的方式。尽管如此,粗粒度图元素(例如,一组可疑的节点)的注释通常需要很少的人力时间和专业知识,但相对更容易获得。因此,在弱监督环境中研究异常检测并建立不同粒度级别的注释之间的内在关系是很有吸引力的。

2024-05-04 16:53:06 836

原创 【无监督时间序列异常检测】2023-NIPS-用于多元时间序列异常检测的 MEMTO 内存引导 Transformer

由于复杂的时间依赖性和变量间的相关性,检测现实世界的多元时间序列数据中的异常具有挑战性。最近,基于重建的深度模型已被广泛用于解决该问题。然而,这些方法仍然存在过度泛化的问题,并且无法提供一致的高性能。为了解决这个问题,我们提出了 MEMTO,一种使用基于重建方法的记忆引导 Transformer。它被设计成包含一种新颖的内存模块,该模块可以学习每个内存项应响应输入数据而更新的程度。为了稳定训练过程,我们使用两阶段训练范例,其中涉及使用 K 均值聚类来初始化内存项。

2023-12-21 22:44:10 1392

原创 【无监督时间序列异常检测】2022-ICLR-Anomaly Transformer:具有关联差异的时间序列异常检测

时间序列中异常点的无监督检测是一个具有挑战性的问题,这需要模型导出可区分的标准。以前的方法主要通过学习点表示或成对关联来解决该问题,然而,这两种方法都不足以推理复杂的动态。最近,Transformers在点式表示和成对关联的统一建模方面表现出了强大的威力,我们发现每个时间点的自注意力权重分布可以体现与整个序列的丰富关联。我们的主要观察是,由于异常的稀有性,建立从异常点到整个序列的非平凡关联是极其困难的,因此,异常的关联将主要集中在其相邻时间点。

2023-11-26 21:05:18 962

原创 【无监督时间序列异常检测】2022-TKDE-具有自监督学习的自适应记忆网络用于无监督异常检测

无监督异常检测旨在建立模型,仅通过对正常数据进行训练来有效检测未见的异常。尽管以前的基于重建的方法取得了丰硕的进展,但由于两个关键挑战,它们的泛化能力受到限制。首先,训练数据集仅包含正常模式,这限制了模型的泛化能力。其次,现有模型学习的特征表示通常缺乏代表性,这阻碍了保持正常模式多样性的能力。在本文中,我们提出了一种称为`具有自监督学习的自适应记忆网络(AMSL)`的新方法来解决这些挑战并增强无监督异常检测的泛化能力。

2023-09-11 18:45:40 145

原创 【无监督视频异常检测】2023-CVPR-使用预训练的深度骨架特征进行提示引导的零样本异常动作识别

本研究研究了无监督异常动作识别,即在没有异常样本的情况下以无监督方式识别视频级异常人类行为事件,同时解决了传统基于骨架的方法中的三个局限性:目标域相关的 DNN 训练、针对骨架错误的鲁棒性、 以及缺乏正常样本。我们提出了一个统一的、用户提示引导的零样本学习框架,使用目标域无关的骨架特征提取器,该框架在大规模动作识别数据集上进行了预训练。特别是,在使用正常样本的训练阶段,该方法对正常动作的骨架特征分布进行建模,同时冻结 DNN 的权重,并在推理阶段使用该分布来估计异常分数。

2023-06-29 18:51:04 2380 1

原创 【视频理解】2022-CVPR-视频 Transformer 的长短时间对比学习

视频Transformer最近成为 3D CNN 视频理解的竞争替代品。然而,由于它们的大量参数和减少的归纳偏差,这些模型需要在大规模图像数据集上进行有监督的预训练才能达到最佳性能。在本文中,我们凭经验证明,在纯视频数据集上对视频Transformer进行自我监督预训练可以导致动作识别结果与在大规模图像数据集上进行监督预训练所获得的结果相当或更好,甚至是像 ImageNet- 21K。由于基于 Transformer 的模型可以有效地捕获扩展时间跨度上的依赖关系,因此我们提出了一个简单的学习过程。

2023-06-23 17:46:32 277

原创 【神经网络】2021-IJCAI-从概念中学习:迈向 Few-shot Learning 的纯净记忆

人类具有很强的泛化能力,可以通过只看到少量样本来识别一个新类别。这是因为人类拥有从我们脑海中已经存在的概念中学习的能力。然而,许多现有的 few-shot 方法未能解决这样一个基本问题,即如何利用过去学到的知识来改进对新任务的预测。在本文中,我们提出了一种模拟人类识别过程的新型净化记忆机制。这种新的记忆更新方案使模型能够从语义标签中净化信息,并在逐集训练时逐步学习一致、稳定和表达性强的概念。在此基础上,引入了图增强模块(Graph Augmentation Module,GAM)。

2023-06-20 17:54:31 711 1

原创 【弱监督视频动作识别】2017-ICCV-通过从未剪辑视频中识别可靠镜头来检测复杂事件

复杂事件检测的目标是自动检测感兴趣的事件是否发生在通常由多个视频镜头组成的时间未修剪的长视频中。观察正面(resp.negative)视频中的一些视频镜头与给定的事件类别无关(resp.relevant),我们通过将每个视频作为一个包和视频镜头将此任务制定为多实例学习(MIL)问题 在每个视频中作为实例。为此,我们提出了一种新的 MIL 方法,它同时学习一个线性 SVM 分类器并为每个实例推断一个二元指标,以便从每个正负包中选择可靠的训练实例。

2023-05-22 10:25:43 86

原创 【弱监督动作识别】2022-CVPR-用于弱监督时间动作定位的细粒度时间对比学习

我们针对弱监督动作定位 (WSAL) 的任务,其中在模型训练期间只有视频级动作标签可用。尽管最近取得了进展,但现有方法主要采用分类定位范式,忽视了视频序列之间富有成效的细粒度时间差异,因此在分类学习和分类到定位适应方面存在严重的歧义。本文认为,通过上下文比较序列到序列的区别来学习在 WSAL 中提供了基本的归纳偏差,并有助于识别连贯的动作实例。具体来说,在可微动态规划公式下,设计了两个互补的对比目标,包括细粒度序列距离(FSD)对比和最长公共子序列(LCS)对比。

2023-05-16 21:04:48 207

原创 【弱监督动作识别】2023-ICASSP-弱监督时间动作定位的双特征增强

弱监督时间动作定位 (WTAL) 旨在定位只有视频级别标签的未修剪视频中的动作。大多数现有方法都采用“分类定位”范式,并采用预先训练有识别任务的模型来提取特征。识别和定位任务之间的差距导致性能较差。最近的一些工作试图利用特征增强来获得更好的定位特征并在一定程度上提高性能。然而,它们仅限于视频内信息的利用,而忽略了数据集中有意义的视频间信息。在本文中,我们为 WTAL 提出了一种新颖的双特征增强 (DFE) 方法,它可以利用视频内和视频间信息。

2023-05-10 12:11:11 152

原创 【弱监督动作识别】2021-ICCV-用于弱监督时间动作定位的前景动作一致性网络

作为高级视频理解的一项具有挑战性的任务,弱监督时间动作定位越来越受到关注。只有视频注释,大多数现有方法都试图使用分类本地化框架来处理此任务,该框架通常采用选择器来选择动作概率高的片段,即前景。然而,现有的前景选择策略有一个主要的局限性,即只考虑前景与动作的单边关系,不能保证前景动作的一致性。在本文中,我们提出了一个基于 I3D 主干的名为 FAC-Net 的框架,在该框架上附加了三个分支,分别称为类前景分类分支、类不可知注意力分支和多实例学习分支。

2023-05-04 16:11:15 109

原创 【弱监督动作识别】2022-CVPR-探索用于弱监督时间动作定位的去噪跨视频对比度

弱监督时间动作定位旨在仅使用视频级标签来定位未修剪视频中的动作。大多数现有方法通过“分类定位”管道解决这个问题,该管道基于片段分类序列来定位动作区域。不幸的是,由于视频级标签的稀疏性,片段分类很容易出错。受最近在无监督对比表示学习方面取得成功的启发,我们提出了一种新颖的去噪跨视频对比算法,旨在增强视频片段的特征辨别能力,以便在弱监督环境下进行准确的时间动作定位。

2023-05-04 11:40:49 108

原创 【多实例学习】2017-PR-多实例学习:问题特征和应用的调查

多实例学习 (MIL) 是一种弱监督学习形式,其中训练实例被排列在集合中,称为包,并为整个包提供标签。这个公式正在引起人们的兴趣,因为它自然地适合各种问题并允许利用弱标记的数据。因此,它已被用于计算机视觉和文档分类等不同的应用领域。然而,从包中学习提出了 MIL 独有的重要挑战。本文对定义和区分 MIL 问题类型的特征进行了全面调查。直到现在,还没有正式识别和描述这些问题特征。因此,很难解释从一个数据集到另一个数据集的 MIL 算法的性能变化。

2023-04-26 17:31:14 1451

原创 【无监督视频异常检测】2022-CVPR-用于无监督视频异常检测的生成合作学习

视频异常检测在弱监督和一类分类 (OCC) 设置中得到了很好的研究。然而,无监督视频异常检测方法非常稀少,可能是因为异常发生的频率较低且通常定义不明确,再加上缺乏地面实况监督,可能会对学习算法的性能产生不利影响。这个问题具有挑战性,但也是有益的,因为它可以完全消除获取费力的标签的成本,并使此类系统无需人工干预即可部署。为此,我们提出了一种用于视频异常检测的新型无监督生成合作学习 (GCL) 方法,该方法利用异常的低频率在生成器和鉴别器之间建立交叉监督。

2023-04-20 17:10:20 198

原创 【视频理解】2019-ICCV-GCNet:非局部网络与挤压激励网络及其超越

非局部网络 (NLNet) 提出了一种通过将特定于查询的全局上下文聚合到每个查询位置来捕获远程依赖项的开创性方法。然而,通过严格的实证分析,我们发现非局部网络建模的全局上下文对于图像中的不同查询位置几乎相同。在本文中,我们利用这一发现创建了一个基于查询无关公式的简化网络,它保持了 NLNet 的准确性,但计算量明显减少。我们进一步观察到,这种简化的设计与挤压激励网络 (SENet) 具有相似的结构。因此,我们将它们统一为全局上下文建模的三步通用框架。

2023-04-02 17:52:17 75

原创 【神经网络】2021-ICCV-Pyramid Vision Transformer:用于无卷积密集预测的多功能骨干

尽管卷积神经网络 (CNN) 在计算机视觉领域取得了巨大成功,但这项工作研究了一种更简单、无卷积的骨干网络,可用于许多密集预测任务。与最近提出的专为图像分类设计的 Vision Transformer (ViT) 不同,我们引入了 Pyramid Vision Transformer (PVT),它克服了将 Transformer 移植到各种密集预测任务的困难。与当前的技术水平相比,PVT 有几个优点。

2023-04-01 09:10:17 937

原创 【视频理解】2022-CVPR-Video Swin Transformer

视觉领域正在见证从 CNN 到 Transformers 的建模转变,纯 Transformer 架构在主要视频识别基准测试中达到了最高准确度。这些视频模型都建立在 Transformer 层之上,Transformer 层在空间和时间维度上全局连接块。在本文中,我们提倡视频 Transformer 中的局部归纳偏差,与以前的方法相比,即使使用时空分解,也可以在全局范围内计算自注意力,从而实现更好的速度-精度权衡。所提出的视频架构的局部性是通过调整为图像域设计的 Swin Transformer 实现的。

2023-03-28 17:13:55 5880 1

原创 【弱监督视频异常检测】2022-AAAI-用于弱监督视频异常检测的 Transformer 自训练多序列学习

使用多实例学习 (MIL) 的弱监督视频异常检测 (VAD) 通常基于异常片段的异常分数高于正常片段的异常分数这一事实。在训练之初,由于模型精度有限,很容易选择错误的异常片段。为了减少选择错误的概率,我们首先提出了一种多序列学习(MSL)方法和一种基于铰链的 MSL 排名损失,它使用由多个片段组成的序列作为优化单元。然后,我们设计了一个基于 Transformer 的 MSL 网络来学习视频级异常概率和片段级异常分数。在推理阶段,我们建议使用视频级异常概率来抑制片段级异常分数的波动。

2023-03-27 09:35:40 233

Homepage.html

模仿百度页面编写的一个静态html模板,不包含所用图片,图片自行添加。

2019-07-22

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除