小吴同学真棒-CSDN博客

原创（更新中）记录 LaTeX 遇到过的问题

记录 LaTeX 遇到过的问题：公式太长无法换行怎么办？等问题

2022-02-09 14:25:11 2472 3

原创【论文速读 + 核心代码定位】（2025 CVPR）SALAD: Skeleton-aware Latent Diffusion for Text-driven Motion Generation

这篇文章在压缩运动特征时，引入了骨架点的拓扑结构，通过显式地引入了相邻关节点、相邻帧之间的信息，促进相邻帧和相邻节点之间的信息交换，以此学习到“骨架感知的运动表征”。

2025-05-03 14:59:49 1248

原创【论文速度 + 核心代码定位】（2024 ECCV）ParCo: Part-Coordinating Text-to-Motion Synthesis

这篇论文提出了 ParCo 框架，让动作生成模型更好地理解并协调生成身体各个部分（body part）的运动。

2025-04-27 21:24:57 1203

原创【论文速读】（2025 TMM）SkeletonX: Data-Efficient Skeleton-based ActionRecognition via Cross-sample Feature

Zongye Zhang, Wenrui Cai, Qingjie Liu, Yunhong Wang论文地址：https://arxiv.org/pdf/2504.11749现有的骨架动作识别模型在大规模数据集上表现优异，但在新场景（如新动作类别、不同表演者，或不同骨架布局）中适应性较差。One-shot 学习：每个新动作类别仅有一个参考样本。Limited-scale训练：从零开始训练，仅使用少量样本（如每类10、20、30、50个样本）。提出 SkeletonX，一个轻量、即插即用的训练流程（tra

2025-04-20 20:45:57 1394

原创【论文阅读笔记 + 思考 + 总结】MoMask: Generative Masked Modeling of 3D Human Motions

创新点：VQ-VAE 👉 Residual VQ-VAE，对每个 motion sequence 输出一组 base motion tokens 和 v 组 residual motion tokensbidirectional 的 Masked transformer 用来生成 base motion tokensResidual Transformer 对 residual motion tokens 进行建模

2024-07-31 15:54:12 1851 1

原创【论文阅读 + 核心代码定位解读】（2023 AAAI）HiCLR

单方向将 “应用了 strong augmentations 的骨架点特征” 往 “应用了 weak augmentations 的骨架点特征” 方向拉近。本文的 HiCLR 是基于经典对比学习框架 MoCo v2，对应最下面的两个分支。sim() 可以是任何衡量相似性的函数，本文用的是 KL Divergence。其中，InfoNCE Loss 只应用在第三和四分支生成的 pairs 上。图中第三~第一个分支的数据增强操作在前一个分支的基础上进行增加。本文定义了三个 augmentation sets。

2023-12-03 17:24:13 1567

原创【论文阅读笔记】（2022 AAAI）AimCLR：Contrastive Learning from Extremely Augmented Skeleton Sequences for Self-

Contribution：1、Extreme Data Augmentation 2、EADM：drop some important features to make the representations more robust 3、D3M loss：contrastive learning in a more gentle way 4、NNM：positive mining like CrosCLR

2023-11-23 17:07:58 580

原创 Hi-TRS：骨架点视频序列的层级式建模及层级式自监督学习

Hi-TRS：骨架点视频序列的层级式建模及层级式自监督学习

2023-08-17 14:06:38 908 1

原创浅谈 EMP-SSL + 代码解读：自监督对比学习的一种极简主义风

自监督对比学习的一种极简主义风：一张图片裁剪成不同的 patch，对不同的 patch 做数据增强，分别输入 encoder，得到多个 embedding，对它们求均值，得到作为这张图片的 embedding。最后，拉近每个 patch 的 embedding 和图片的 embedding（）之间的余弦距离；再用 Total Coding Rate(TCR) 防止坍塌（即 encoder 对所有输入都输出相同的 embedding）

2023-08-14 20:37:38 895

原创雅思备考经验！阅读 8.5，听力 8.5！

先上热乎乎的成绩单截图（2023.5.19 考试），偏科选手出来挨打！好在小分都达到了要求~

2023-05-27 08:20:39 1892 1

原创【论文阅读笔记】（2023 CVPR）Beyond Appearance: a Semantic Controllable Self-Supervised Learning Framework for

这篇文章是较大程度上做到了 multiple-in-one，只训练一个自监督模型，再设置不同的 λ，就可以得到不同的自监督模型！！！

2023-04-18 13:21:51 1734 1

原创【论文阅读笔记】（2022 ECCV）CMD: Self-supervised 3D Action Representation Learning with Cross-modal Mutual Di

作者提出了一个跨模态互蒸馏（Cross-modal Mutual Distillation，CMD）的自监督学习框架。其中，模态之间进行的是双向知识蒸馏（bidirectional knowledge distillation）；蒸馏的知识（knowledge）是样本和其他样本的相似度分布（the neighboring similarity distribution）在蒸馏的过程中，为老师（teacher）和学生（student）模型设置不同的参数，目的是稳定蒸馏的过程，同时保证传输具有高置信度的信息。

2023-04-04 14:18:49 1640 2

原创 InstDisc 代码解读

这里将解读代码最核心的部分：计算 loss和更新 memory bank 的部分。

2022-11-06 12:35:29 1965 2

原创【论文阅读笔记】（2021 CVPR）3D Human Action Representation Learning via Cross-View Consistency Pursuit

We propose CrosSCLR, a cross-view contrastive learning framework for skeleton-based action representation. First, we develop Contrastive Learning for Skeleton-based action Representation (SkeletonCLR) to learn the singleview representations of skeleton dat

2022-09-05 20:03:43 866 1

原创【论文阅读笔记】（2022 ECCV）Contrastive Positive Mining for Unsupervised 3D Action Representation Learning

论文在骨架点序列上做了一个自监督对比学习任务：首先对一段骨架点序列分别做两次数据增强，分别送入两个分支，分别得到两个增强样本的特征。比起直接拉近两个增强样本之间特征的距离，这篇论文拉近的是：这两个增强样本与队列中的 N 个样本相似程度的分布。同时，除了两个增强样本互为各自的正样本，在训练的第二阶段里，模型还会使用 Positive Mining 策略将队列中的某些样本也作为这两个增强样本的正样本，进行positive-enhanced 的对比学习。

2022-08-21 16:06:34 1201

原创【视频学习笔记】（霹雳吧啦Wz）MobileNet 系列

霹雳吧啦Wz 的 MobileNet 系列视频学习笔记~整理方便复习~

2022-07-27 15:55:41 4151 2

原创【论文阅读笔记】（2022 CVPR）Self-Supervised Material and Texture Representation Learning for Remote Sensing T

论文在遥感图像上做了一个自监督对比学习任务由一个改良版encoder（见 Sec 1）对遥感图像提取特征，再用特征和类中心之间的关系得到每个样本对应的 soft representation（见Sec 2）。接着就是用对比学习的loss去拉近正样本对之间的soft representation，推远负样本对的 soft representation（见Sec 3）...

2022-07-20 20:35:31 1645 1

原创【论文阅读笔记】（2021 CVPR）Re-labeling ImageNet: from Single to Multi-Labels, from Global to Localized Label

Re-labeling ImageNet: from Single to Multi-Labels, from Global to Localized Labels（2021 CVPR）Sangdoo Yun, Seong Joon Oh, Byeongho Heo, Dongyoon Han, Junsuk Choe, Sanghyuk ChunNotesContributionsIn this paper, we propose a re-labeling strategy, R

2022-05-23 16:44:12 475

原创【leetcode 78】子集（C 语言）

【leetcode 78】子集（C 语言）将 [0, 2^n] 的数字直接转成二进制，然后按照得到的二进制 mask 输出子集。

2022-04-22 23:38:20 650

原创【英文论文写作经验分享】1、Abstract 怎么写？

分享一下学到的写作知识和小小的经验，也可以记录一下自己在英文写作过程中遇到的问题。先从写论文的套路开始吧！也是从论文里最重要的 Abstract 开始，它可是决定了读者会不会打开你的论文看的一大重要因素。

2022-03-30 16:32:26 16341

原创【论文阅读笔记】（2019 ICCV）SlowFast Networks for Video Recognition

论文名称：SlowFast Networks for Video Recognition论文链接：https://arxiv.org/pdf/1812.03982.pdf论文作者：Christoph Feichtenhofer，Haoqi Fan，Jitendra Malik，Kaiming He【Facebook AI Research (FAIR)】写在前面由于关于这篇论文网上已经有比较详细的讲解了，所以我就不做重复的工作了。在引用别人讲解...

2022-03-27 15:29:24 681

原创【论文阅读笔记】（2s-AGCN）Two-Stream Adaptive Graph Convolutional Networks for Skeleton-Based Action Recognit

写在前面很久之前就出了这篇文章的代码讲解博客：解读 2s-AGCN 代码_小吴同学真棒的博客-CSDN博客_2s-agcn代码意外发现还挺多人阅读和收藏的，那我借着今天再复习这篇论文的时候再补充一下论文的方法笔记吧。Two-Stream Adaptive Graph Convolutional Networks for Skeleton-Based Action Recognition（2019 CVPR）Lei Shi, Yifan Zhang, Jian Cheng, H..

2022-03-22 23:33:24 3072

原创【论文阅读笔记】（2019 IROS）Action Recognition Based on 3D Skeleton and RGB Frame Fusion

Action Recognition Based on 3D Skeleton and RGB Frame Fusion（2019 IROS）Guiyu Liu, Jiuchao Qian, Fei Wen, Xiaoguang Zhu, Rendong Ying, Peilin LiuNotesContributions• First, based on the skeleton information, we propose a preprocess strategy and d

2022-03-15 16:46:22 1546

原创【数据集详情笔记】PKUMMD：多模态人体动作检测数据集

PKUMMDNotesDataset URL: PKU-MMDDataset DetailsThis is a large-scale multi-modalities action detection dataset. contains 1076 long video sequences, each of which lasts about 3∼4 minutes (recording ratio set to 30 FPS) and contains approximately

2022-03-11 13:26:53 4620

原创【Python 代码优化记录】遍历 + concatenate

0、背景【目的】：现有一个数据条数很大（约 25w）的 numpy array：allData。想根据字典 aDict 里的值选取出其中的某些数据（约 2w）条组成一个新的 numpy array：data.原代码大概的逻辑如下：（只放出了和我猜想和结论相关的部分）data = np.array([])for key, value in aDict.items(): data = np.concatenate([data, allData[key]])1、问题代码到后面..

2022-03-08 16:36:14 3121 3

原创【论文阅读笔记 + 代码解读】（2018 AAAI）ST-GCN

写在前面ST-GCN 是skeleton based action recognition 的开山鼻祖。MMLab 出品，必是精品！开山鼻祖级别的论文必有很多理论 + 数学公式，再加上本人（菜鸡）既不是数学专业又不是计软本科出身的，所以第一次看这篇论文的时候很痛苦。。。所以本来应该很早就要写这篇博客的，被我拖啊拖。。。拖到了 2s-AGCN 的解读博客我都写完好久了，ST-GCN 的还是没出来。。。解读 2s-AGCN 代码_小吴同学真棒的博客-CSDN博客_2s-agcn代码论文：https.

2022-03-02 17:08:35 8573 5

原创【论文阅读笔记】（2015 CVPR）Hierarchical recurrent neural network for skeleton based action recognition

Representation Learning of Temporal Dynamics for Skeleton-Based Action Recognition（2015 CVPR）AuthorsNotesContributionsWe propose an end-to-end hierarchical RNN for skeleton based action recognition. Instead oftaking the whole skeleton as the in

2022-02-22 16:28:55 2213 1

原创 Data Parallel 的那些事儿（梯度计算、同步 BN ......）

0、写在前面本文是一个学习链接博客。网上已有许多参考文档，故不再重复。我从找到的学习链接中筛选出我认为写得清晰、通俗易懂的部分截取给大家，并加上了我学习过程中的笔记标注。来源已标注，感谢各位大佬博主！1、Data Parallel 工作原理 & 梯度计算pytorch多gpu DataParallel 及梯度累加解决显存不平衡和显存不足问题_gaoyelu的博客-CSDN博客2、Data Parallel 暂时没有 PyTorch 官方的同步，但 DD..

2022-02-20 18:38:58 2475

原创论文阅读笔记：（2018 ACCV）Cross Pixel Optical-Flow Similarity for Self-Supervised Learning

Cross Pixel Optical-Flow Similarity for Self-Supervised Learning（2018 ACCV: Asian Conference on Computer Vision）Aravindh Mahendran, James Thewlis, Andrea VedaldiNotesContributionsThe authors propose a new self-supervised algorithm by using the

2022-02-04 20:58:08 2113

原创【跟着代码读论文】ViT（2021 ICLR）An image is worth 16x16 words: Transformers for image recognition at scale

论文： An image is worth 16x16 words: Transformers for image recognition at scale.Github code（PyTorch Implementation）：https://github.com/lucidrains/vit-pytorch目录Model OverviewGithub Code UsageProcedure 1 & 2：split an image into fixed-size pa

2021-12-23 12:37:08 1873 1

原创【论文阅读笔记】（2021 ICCV）Video Pose Distillation for Few-Shot, Fine-Grained Sports Action Recognition

Video Pose Distillation for Few-Shot, Fine-Grained Sports Action Recognition（2021 ICCV）James Hong, Matthew Fisher, Micha¨el Gharbi, Kayvon FatahalianNotes写在前面（中文版自己总结）之前的 AR（Action Recognition）有两种做法：（1）end-to-end：就是普通的 AR，输入 RGB frames，输出动作的

2021-12-21 13:02:32 680

原创【论文阅读笔记】（2015 ICML）Unsupervised Learning of Video Representations using LSTMs

Unsupervised Learning of Video Representations using LSTMs（2015 ICML）Nitish Srivastava, Elman Mansimov, Ruslan SalakhutdinovNotesContributionsOur model uses an encoder LSTM to map an input sequence into a fixed length representation. This repre

2021-11-23 17:22:55 847

原创【论文阅读笔记】（2018 ECCV）Look, Listen and Learn

Look, Listen and Learn（2018 ECCV）Relja Arandjelovi´c Andrew ZissermanNotesContributionsWe introduce a novel Audio-Visual Correspondence (AVC) learning task that is used to train the two (visual and audio) networks from scratch. The AVC t...

2021-11-18 11:02:07 2221 2

原创【论文阅读笔记】（2017 CVPR）See, Hear, and Read: Deep Aligned Representations

See, Hear, and Read: Deep Aligned Representations（2017 CVPR）Yusuf Aytar, Carl Vondrick, Antonio TorralbaNotesContributionsIn this paper, we learn rich deep representations that are aligned across the three major natural modalities: vision, soun

2021-11-18 10:50:44 3185

转载【转载】bug 记录：Intel MKL FATAL ERROR: libmkl_avx2.so: undefined symbol: mkl_sparse_optimize_bsr_trsm_i8.

遇到 bug，感谢原链接提供的帮助！本文仅作 bug 记录和解决笔记，不是原创！！！支持原链接：linux anaconda中mkl库的一个坑问题anaconda3中默认链接了一个自己的mkl库。代码中使用到mkl时，会报以下错误:INTEL MKL ERROR: ~/anaconda3/envs/py27/bin/../lib/libmkl_avx2.so: undefined symbol: mkl_sparse_optimize_bsr_trsm_i8.Intel .

2021-10-26 15:13:33 1830

原创【论文阅读】Revisiting self-supervised visual representation learning

0、写在前面比起其他设计 novel SSL pretext task 的文章，这篇文章主要是做实验探究：network architecture 对 SSL pretext task 后学到 representation 好坏的影响。1、结论Architecture choices which negligibly affect performance in the fully labeled setting, may significantly affect performance in

2021-10-03 13:57:37 692

原创亲测有效之从 Google Drive 上下载大文件

这几天需要从 Google Drive 上下载两个大小分别为 8G 和 15G 的数据集，尝试了几种方法：1、IDM：不能续点重传2、MultCloud：总是传到 30% 左右失败重传3、wget：需要 Linux 系统 + 科学上网（我只能在 win10 下科学上网，条件不符，没有深究）4、Google Drive for Desktop：YYDS感谢：从google drive上下载大文件_w112348的博客-CSDN博客安装完长这样：就像一个硬盘一样，直接复制，粘贴在别的

2021-10-02 17:08:32 9240 6

原创风格迁移（Style Transfer）首次学习总结

0、写在前面最近看了吴恩达老师风格迁移相关的讲解视频，深受启发，于是想着做做总结。1、主要思想目的：把一张内容图片（content image）的风格迁移成与另一张图片（style image）风格一致。（图自论文：A Neural Algorithm of Artistic Style）方法：通过约束 Content Loss 和 Style Loss 来生成最终的图片。1.0 activation(representation)、kernel(filter)、cha.

2021-09-25 15:45:05 5362 1

原创【代码 bug 记录】PyTorch 的 Dataloader 如何加载 List 对象？

0、写在前面在记录该问题解决方案的时候，也有在 csdn 上搜到某位小伙伴遇到同样的问题，但没有说明原因。那我就记录一下吧。1、问题之前看到一份代码，在 __init__() 函数中，加载的每一条数据都是一个列表 List【长度为 len_list】，列表中的每一项是一段经过处理的视频，维度为 [C, T, H, W]。所以 dataset 中每一条数据的维度应该是 [len_list, C, T, H, W]。按照以往加载数据的经验，我自然而然地认为用 dataloader 返回.

2021-09-25 13:31:57 3408 2

原创【论文阅读】（XDC）Self-Supervised Learning by Cross-Modal Audio-Video Clustering

Self-Supervised Learning by Cross-Modal Audio-Video Clustering（2020 NeurIPS）Humam Alwassel, Dhruv Mahajan, Bruno Korbar, Lorenzo Torresani, Bernard Ghanem, Du TranNotesContributionspropose Cross-Modal Deep Clustering (XDC), a novel self-supervi

2021-09-22 15:19:07 1072

tdms转txt文件——TDMSReader.exe（可直接安装使用）

空空如也