自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(30)
  • 收藏
  • 关注

原创 Proposal-based Multiple Instance Learning for Weakly-supervised Temporal Action Localization论文整理

研究团队:中国科学技术大学。

2024-05-17 15:52:59 853 1

原创 配置mamba环境指南

mamba环境配置

2024-05-13 14:33:43 921

原创 Video Mamba Suite: State Space Model as a Versatile Alternative for Video Understanding论文整理

研究团队将 Mamba 模型的应用划分为四种不同的角色,提出了针对 14 种模型 / 模块的 Video Mamba Suite,在 12 项视频理解任务中对其进行了深入评估。

2024-05-06 17:45:04 1135 5

原创 Real-ESRGAN:Training Real-World Blind Super-Resolution with Pure Synthetic Data论文整理

使用合成数据训练的Real - ESRGAN能够增强细节,同时去除大多数真实世界图像的恼人伪影。

2024-03-27 16:55:56 966

原创 Pseudo-Label : The Simple and Efficient Semi-Supervised Learning Method for Deep Neural Networks论文解析

本文提出了一种简单高效的深度神经网络半监督学习方法。网络以有监督的方式同时使用有标记和无标记数据进行训练。对于未标记数据,使用伪标签,只挑选网络输出最大的类,当作它们是真实的标签。从原理上讲,该方法可以结合几乎所有的神经网络模型和训练方法。

2024-03-20 17:57:14 1002

原创 Semi-supervised Learning by Entropy Minimization论文整理

该文章提出了一种适用于任何概率分类器的估计原则,旨在使未标记数据在有益的情况下得到充分利用,同时对它们的贡献进行控制,从而为学习方案提供鲁棒性。

2024-03-06 20:34:37 1009

原创 ASM-Loc: Action-aware Segment Modeling for WTAL论文笔记(CVPR2022)

本文提出了一个新的WTAL框架ASM - Loc,它能够在以往基于MIL的方法之外实现显式的动作感知片段建模。引入了与WTAL管道的三个阶段相对应的三个新颖的以段segment为中心的模块,缩小了弱监督和强监督设置之间的性能差距。该方法进一步引入多步训练策略来逐步细化动作建议直到定位性能达到饱和。ASM - Loc在两个WTAL基准上取得了SOTA。

2023-10-21 15:03:08 154

转载 NMS非极大抑制-简单总结

关于NMS一些总结

2023-10-08 16:27:59 75

原创 (模型细节)ACM-Net: Action Context Modeling Network

Action Context Modeling Network for Weakly-Supervised Temporal Action Localization

2023-09-20 21:24:45 94

原创 Adversarial Background-Aware Loss for Weakly-Supervised Temporal Activity Localization论文笔记

Adversarial Background-Aware Loss for Weakly-Supervised Temporal Activity Localization论文笔记ECCV2020

2023-06-20 10:23:05 86 1

原创 Action Segmentation动作分割概念区别

Action Segmentation动作分割和动作定位概念区别

2023-06-20 10:16:14 378

原创 实战手写数字识别

我在CPU上训练的,有点慢,差不多一个小时,建议用GPU来训。

2023-06-04 21:23:25 44

原创 模型搭建和参数优化

PyTtorch之torch.nn

2023-06-03 19:26:35 48

原创 自动梯度(torch.autograd和Variable)

torch.autograd和Variable。

2023-06-03 16:26:20 157

原创 Python中的Tensor-简单神经网络示例

搭建一个简单的神经网络

2023-05-31 22:14:04 105

原创 JupyterNotebook连接不上kernel

1.首先查看一下kernel里python解释器的路径是否有问题。重新安装了tornado之后,成功启动kernel。我按照这个博主的方法修改了路径之后还是无法启动。2.按照具体的报错来找解决方法。然后仔细看了一下终端的报错。

2023-05-29 11:14:04 691

原创 Python中的Matplotlib

matplotlib画图

2023-05-28 15:23:56 71

原创 Python中的Numpy

多维数组的基本操作

2023-05-27 21:26:11 99

原创 ACGNet: Action Complement Graph Network for Weakly-supervised Temporal Action论文笔记

提出了一种新颖的WTAL图卷积网络ACGNet,通过隐式地利用互补信息并联合解决空间不完整性和时间不连贯性问题,极大地增强了段级动作表示的可区分性。考虑多要因素(即分段相似性、时间扩散和图稀疏性)来构建初始ACG。提出一种新的"简单正例挖掘"损失,使图网络的训练变得可行和实用,从而使ACGNet能够灵活地注入到现有的框架中,同时保持了端到端的训练方式。

2023-05-26 11:57:17 154 1

原创 Python入门(代码示例)

参考书目:《深度学习之PyTorch实战计算机视觉》唐进民。

2023-05-26 11:39:05 172

原创 BaS-Net:Background Suppression Network for Weakly-Supervised Temporal Action Localization论文笔记

本文引入了一个代表**背景**的辅助类来建模弱监督的时间动作定位问题。·本文提出了一个具有过滤模块和对比目标的非对称双分支权重共享架构来**抑制背景帧**的激活,提高定位性能。

2023-04-23 22:19:09 212 1

原创 W-TALC: Weakly-supervised Temporal Activity Localization and Classification论文总结

1 .提出了一种新的弱监督时间活动定位和视频分类方法,无需对特征提取器进行微调,只学习任务特定的参数。在训练时不考虑视频中标签的任何排序,并且可以在相同的时间内检测多个活动。2 .我们引入协同活动相似性损失,并与多示例学习损失联合优化,学习弱监督任务特有的网络权重。通过实证表明这两个损失函数在性质上是互补的。

2023-04-17 23:04:33 267

原创 ACM-Net: Action Context Modeling Network for Weakly-Supervised Temporal Action Localization论文总结

传统方法主要关注仅有单一注意力分支和类别激活序列的前景和背景帧分离。然而,除了独特的前景和背景框架外,还有大量语义模糊的动作上下文。将这些上下文帧分组到同一个背景类是没有意义的,因为它们在语义上与特定的动作类别相关。因此,仅使用单一类别激活序列来抑制动作上下文帧是具有挑战性的。

2023-04-01 00:45:58 542

原创 CO2-Net:Cross-Modal Consensus Network For Weakly Supervised Temporal Action Localization论文总结

从预训练的提取器中提取的特征是为修剪视频动作分类而训练的,而不是针对WS - TAL任务,导致不可避免的冗余和次优化。所以需要对特征进行重新标定,以减少任务无关的信息冗余。(对特征提取器进行微调需要高时间和高计算成本,本文认为对特征重校准是相对高效的方式)

2023-03-28 17:42:08 181

原创 Time Is MattEr: Temporal Self-supervision for Video Transformers论文总结

3.值得注意的是,该方案可以以插件方式应用于任何视频Transformer,并有利于各种视频下游任务,包括不需要额外人工标注监督的动作识别,也可以扩展到图像领域,以减轻背景偏差。1.我们设计了一个简单有效的帧级和token级的自监督任务,命名为TIME(TIME Is MattEr),用于更好地学习时间动态的视频模型。在各种视频动作识别任务中,我们证明了所提出方法的有效性,以及与最先进的视频Transformer的兼容性。首先,我们训练模型学习两个框架级别的任务,以消除从空间动态中学习到的虚假相关性。

2022-11-25 22:54:59 599

原创 ActionFormer: Localizing Moments of Actions with Transformers论文总结

作为第一个 TAL 任务下的 Transformer 模型,将局部自注意力与多尺度特征表示进行了结合结构简单,无需生成proposal或预先定义anchor window即可实现分类及回归。在基准数据集上的实验效果达到SOTA发现相似论文:Adaptive Perception Transformer for Temporal Action Localization。

2022-11-17 20:19:56 1752 1

转载 时序动作定位基本知识

对时序结构信息建模的算法:SSN(Structured Segment Network,结构化视频段网络)算法 (Zhao et al., 2020) 对动作不同的阶段 (开始、过程、结束) 进行建模,SSN 不仅会预测候选时序区间内的动作类别,还会预测候选时序区间的完整性,这样做的好处是可以更好地定位动作开始和结束的时刻。基于滑动窗的算法:这类算法的基本思路是预先定义一系列不同时长的滑动窗,之后滑动窗在视频上沿着时间维度进行滑动,并逐一判断每个滑动窗对应的时序区间内具体是什么动作类别。

2022-11-09 21:14:04 2592

原创 A Survey on Temporal Action Localization论文总结

2020年的时序动作定位综述,文章是中国人写的,对我们来说很好读,逻辑也清晰,对于想了解时序动作定位这个领域的入门者来说很友好~我把论文的要点进行了罗列,类似论文大纲~本文主要介绍了时序动作定位任务中的SOTA技术和模型,基准数据集、评价指标等;总结了强监督学习和弱监督学习的TAL;列举了有代表性的工作,对比它们的性能;最后做了深度分析及研究展望。从视频理解五个子研究方向引出时序动作定位TAL,并说明子任务内容:给出动作发生开始和结束的时间给出动作类别。

2022-11-06 16:33:31 955

转载 三维视觉和三维点云基础概念

本篇文章为学习笔记(知识点整理),内容非原创,部分内容转载自以下博客链接三维视觉研究什么_惊鸿一博-CSDN博客_三维视觉北大陈宝权教授:三维视觉前沿进展与应用 - 知乎3D目标检测与视觉SLAM的区别与联系是什么?研一新生目前还在这两个方向上犹豫,前辈们能否提供点建议? - 知乎...

2021-11-03 16:14:31 4840

原创 使用Audacity对清浊音进行频谱分析

一、实验目标:使用Audacity分别录制浊清音并分析频谱特点二、实验步骤:1.录制两段语音,浊音/b/,清音/s/2.放大时域波形(灰色波形为浊音 /b/ ,蓝色波形为/s/)3.分别对两段波形进行频域分析(1)浊音/b/频谱图:最大峰值在8124Hz左右,能量多集中在低频,且呈簇状分布,有多组峰值。(2)清音/s/频谱图:最大峰值在10510Hz左右,相较浊音/b/的频谱分布更为均匀,且高频分量更多。...

2021-10-07 23:27:26 1512

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除