爱发呆的WWT-CSDN博客

原创 BEVFormer论文总结

BEVFormer证明了利用多相机输入的时空信息可以显著提高视觉感知模型的性能。BEVFormer所展示的优势，如更准确的速度估计和在低可见物体上更高的召回率，对于构建更好和更安全的自动驾驶系统至关重要。

2024-12-23 20:28:43 1321

原创 MambaMIL: Enhancing Long Sequence Modeling with Sequence Reordering in Computational Pathology（MICCA

为了有效地捕获长实例序列中的综合上下文信息，本文引入了一种新的方法，MambaMIL，通过将Mamba框架集成到MIL中，如图1所示。通过继承Mamba的属性，MambaMIL使得每个实例可以通过压缩的隐藏状态与先前扫描的任何实例进行交互，这有利于对长序列进行有效建模，同时降低了计算复杂度。

2024-09-06 16:00:07 1283

原创 MamMIL: Multiple Instance Learning for Whole Slide Images with State Space Models论文总结

本文将选择性结构化状态空间模型(即Mamba)与MIL相结合，提出了一种用于WSI分类的MamMIL框架，在保持线性复杂度的同时，实现了实例依赖关系的建模。

2024-09-03 16:53:58 1443 1

原创视觉Mamba综述——Visual Mamba: A Survey and New Outlooks论文总结

本文对视觉Mamba方法进行了全面的综述。我们首先对Mamba架构进行深入的概述，然后对具有代表性的可视化Mamba骨干网及其广泛的应用进行详细的研究。这些应用按照不同的模态进行了系统的分类，包括图像、视频、点云和多模态数据。最后，我们分析了可视化Mamba面临的挑战，并描绘了未来的发展方向，提供了有价值的展望，可能会影响这个动态演化领域的持续和未来发展。

2024-08-30 20:03:59 8642 2

原创 Proposal-based Multiple Instance Learning for Weakly-supervised Temporal Action Localization论文整理

研究团队：中国科学技术大学。

2024-05-17 15:52:59 1143 1

原创 Video Mamba Suite: State Space Model as a Versatile Alternative for Video Understanding论文整理

研究团队将 Mamba 模型的应用划分为四种不同的角色，提出了针对 14 种模型 / 模块的 Video Mamba Suite，在 12 项视频理解任务中对其进行了深入评估。

2024-05-06 17:45:04 1612 5

原创 Real-ESRGAN：Training Real-World Blind Super-Resolution with Pure Synthetic Data论文整理

使用合成数据训练的Real - ESRGAN能够增强细节，同时去除大多数真实世界图像的恼人伪影。

2024-03-27 16:55:56 2013

原创 Pseudo-Label : The Simple and Efficient Semi-Supervised Learning Method for Deep Neural Networks论文解析

本文提出了一种简单高效的深度神经网络半监督学习方法。网络以有监督的方式同时使用有标记和无标记数据进行训练。对于未标记数据，使用伪标签，只挑选网络输出最大的类，当作它们是真实的标签。从原理上讲，该方法可以结合几乎所有的神经网络模型和训练方法。

2024-03-20 17:57:14 1771

原创 Semi-supervised Learning by Entropy Minimization论文整理

该文章提出了一种适用于任何概率分类器的估计原则，旨在使未标记数据在有益的情况下得到充分利用，同时对它们的贡献进行控制，从而为学习方案提供鲁棒性。

2024-03-06 20:34:37 1511

原创 ASM-Loc: Action-aware Segment Modeling for WTAL论文笔记（CVPR2022)

本文提出了一个新的WTAL框架ASM - Loc，它能够在以往基于MIL的方法之外实现显式的动作感知片段建模。引入了与WTAL管道的三个阶段相对应的三个新颖的以段segment为中心的模块，缩小了弱监督和强监督设置之间的性能差距。该方法进一步引入多步训练策略来逐步细化动作建议直到定位性能达到饱和。ASM - Loc在两个WTAL基准上取得了SOTA。

2023-10-21 15:03:08 420

原创（模型细节）ACM-Net: Action Context Modeling Network

Action Context Modeling Network for Weakly-Supervised Temporal Action Localization

2023-09-20 21:24:45 243

原创 Adversarial Background-Aware Loss for Weakly-Supervised Temporal Activity Localization论文笔记

Adversarial Background-Aware Loss for Weakly-Supervised Temporal Activity Localization论文笔记ECCV2020

2023-06-20 10:23:05 214 1

原创 Action Segmentation动作分割概念区别

Action Segmentation动作分割和动作定位概念区别

2023-06-20 10:16:14 1108

原创实战手写数字识别

我在CPU上训练的，有点慢，差不多一个小时，建议用GPU来训。

2023-06-04 21:23:25 119

原创模型搭建和参数优化

PyTtorch之torch.nn

2023-06-03 19:26:35 171

原创自动梯度（torch.autograd和Variable）

torch.autograd和Variable。

2023-06-03 16:26:20 278

原创 JupyterNotebook连接不上kernel

1.首先查看一下kernel里python解释器的路径是否有问题。重新安装了tornado之后，成功启动kernel。我按照这个博主的方法修改了路径之后还是无法启动。2.按照具体的报错来找解决方法。然后仔细看了一下终端的报错。

2023-05-29 11:14:04 1218

原创 ACGNet: Action Complement Graph Network for Weakly-supervised Temporal Action论文笔记

提出了一种新颖的WTAL图卷积网络ACGNet，通过隐式地利用互补信息并联合解决空间不完整性和时间不连贯性问题，极大地增强了段级动作表示的可区分性。考虑多要因素(即分段相似性、时间扩散和图稀疏性)来构建初始ACG。提出一种新的"简单正例挖掘"损失，使图网络的训练变得可行和实用，从而使ACGNet能够灵活地注入到现有的框架中，同时保持了端到端的训练方式。

2023-05-26 11:57:17 359 1

原创 Python入门（代码示例）

参考书目：《深度学习之PyTorch实战计算机视觉》唐进民。

2023-05-26 11:39:05 353

原创 BaS-Net：Background Suppression Network for Weakly-Supervised Temporal Action Localization论文笔记

本文引入了一个代表**背景**的辅助类来建模弱监督的时间动作定位问题。·本文提出了一个具有过滤模块和对比目标的非对称双分支权重共享架构来**抑制背景帧**的激活，提高定位性能。

2023-04-23 22:19:09 465 1

原创 W-TALC: Weakly-supervised Temporal Activity Localization and Classification论文总结

1 .提出了一种新的弱监督时间活动定位和视频分类方法，无需对特征提取器进行微调，只学习任务特定的参数。在训练时不考虑视频中标签的任何排序，并且可以在相同的时间内检测多个活动。2 .我们引入协同活动相似性损失，并与多示例学习损失联合优化，学习弱监督任务特有的网络权重。通过实证表明这两个损失函数在性质上是互补的。

2023-04-17 23:04:33 434

原创 ACM-Net: Action Context Modeling Network for Weakly-Supervised Temporal Action Localization论文总结

传统方法主要关注仅有单一注意力分支和类别激活序列的前景和背景帧分离。然而，除了独特的前景和背景框架外，还有大量语义模糊的动作上下文。将这些上下文帧分组到同一个背景类是没有意义的，因为它们在语义上与特定的动作类别相关。因此，仅使用单一类别激活序列来抑制动作上下文帧是具有挑战性的。

2023-04-01 00:45:58 963

原创 CO2-Net：Cross-Modal Consensus Network For Weakly Supervised Temporal Action Localization论文总结

从预训练的提取器中提取的特征是为修剪视频动作分类而训练的，而不是针对WS - TAL任务，导致不可避免的冗余和次优化。所以需要对特征进行重新标定，以减少任务无关的信息冗余。（对特征提取器进行微调需要高时间和高计算成本，本文认为对特征重校准是相对高效的方式）

2023-03-28 17:42:08 380

原创 Time Is MattEr: Temporal Self-supervision for Video Transformers论文总结

3.值得注意的是，该方案可以以插件方式应用于任何视频Transformer，并有利于各种视频下游任务，包括不需要额外人工标注监督的动作识别，也可以扩展到图像领域，以减轻背景偏差。1.我们设计了一个简单有效的帧级和token级的自监督任务，命名为TIME(TIME Is MattEr)，用于更好地学习时间动态的视频模型。在各种视频动作识别任务中，我们证明了所提出方法的有效性，以及与最先进的视频Transformer的兼容性。首先，我们训练模型学习两个框架级别的任务，以消除从空间动态中学习到的虚假相关性。

2022-11-25 22:54:59 735

m0_60273616的博客