- 博客(135)
- 资源 (1)
- 收藏
- 关注
原创 【论文阅读笔记 + 思考 + 总结】MoMask: Generative Masked Modeling of 3D Human Motions
创新点:VQ-VAE 👉 Residual VQ-VAE,对每个 motion sequence 输出一组 base motion tokens 和 v 组 residual motion tokensbidirectional 的 Masked transformer 用来生成 base motion tokensResidual Transformer 对 residual motion tokens 进行建模
2024-07-31 15:54:12 921
原创 【论文阅读 + 核心代码定位解读】(2023 AAAI)HiCLR
单方向将 “应用了 strong augmentations 的骨架点特征” 往 “应用了 weak augmentations 的骨架点特征” 方向拉近。本文的 HiCLR 是基于经典对比学习框架 MoCo v2,对应最下面的两个分支。sim() 可以是任何衡量相似性的函数,本文用的是 KL Divergence。其中,InfoNCE Loss 只应用在第三和四分支生成的 pairs 上。图中第三~第一个分支的数据增强操作在前一个分支的基础上进行增加。本文定义了三个 augmentation sets。
2023-12-03 17:24:13 504
原创 【论文阅读笔记】(2022 AAAI)AimCLR:Contrastive Learning from Extremely Augmented Skeleton Sequences for Self-
Contribution:1、Extreme Data Augmentation 2、EADM:drop some important features to make the representations more robust 3、D3M loss:contrastive learning in a more gentle way 4、NNM:positive mining like CrosCLR
2023-11-23 17:07:58 325
原创 浅谈 EMP-SSL + 代码解读:自监督对比学习的一种极简主义风
自监督对比学习的一种极简主义风:一张图片裁剪成不同的 patch,对不同的 patch 做数据增强,分别输入 encoder,得到多个 embedding,对它们求均值,得到作为这张图片的 embedding。最后,拉近每个 patch 的 embedding 和图片的 embedding()之间的余弦距离;再用 Total Coding Rate(TCR) 防止坍塌(即 encoder 对所有输入都输出相同的 embedding)
2023-08-14 20:37:38 713
原创 【论文阅读笔记】(2023 CVPR)Beyond Appearance: a Semantic Controllable Self-Supervised Learning Framework for
这篇文章是较大程度上做到了 multiple-in-one,只训练一个自监督模型,再设置不同的 λ,就可以得到不同的自监督模型!!!
2023-04-18 13:21:51 1054 1
原创 【论文阅读笔记】(2022 ECCV)CMD: Self-supervised 3D Action Representation Learning with Cross-modal Mutual Di
作者提出了一个跨模态互蒸馏(Cross-modal Mutual Distillation,CMD)的自监督学习框架。其中,模态之间进行的是双向知识蒸馏(bidirectional knowledge distillation);蒸馏的知识(knowledge)是样本和其他样本的相似度分布(the neighboring similarity distribution)在蒸馏的过程中,为老师(teacher)和学生(student)模型设置不同的参数,目的是稳定蒸馏的过程,同时保证传输具有高置信度的信息。
2023-04-04 14:18:49 1075 1
原创 【论文阅读笔记】(2021 CVPR)3D Human Action Representation Learning via Cross-View Consistency Pursuit
We propose CrosSCLR, a cross-view contrastive learning framework for skeleton-based action representation. First, we develop Contrastive Learning for Skeleton-based action Representation (SkeletonCLR) to learn the singleview representations of skeleton dat
2022-09-05 20:03:43 668 1
原创 【论文阅读笔记】(2022 ECCV)Contrastive Positive Mining for Unsupervised 3D Action Representation Learning
论文在骨架点序列上做了一个自监督对比学习任务:首先对一段骨架点序列分别做两次数据增强,分别送入两个分支,分别得到两个增强样本的特征。比起直接拉近两个增强样本之间特征的距离,这篇论文拉近的是:这两个增强样本与队列中的 N 个样本相似程度的分布。同时,除了两个增强样本互为各自的正样本,在训练的第二阶段里,模型还会使用 Positive Mining 策略将队列中的某些样本也作为这两个增强样本的正样本,进行positive-enhanced 的对比学习。
2022-08-21 16:06:34 1043
原创 【论文阅读笔记】(2022 CVPR)Self-Supervised Material and Texture Representation Learning for Remote Sensing T
论文在遥感图像上做了一个自监督对比学习任务由一个改良版encoder(见 Sec 1)对遥感图像提取特征,再用特征和类中心之间的关系得到每个样本对应的 soft representation(见Sec 2)。接着就是用对比学习的loss去拉近正样本对之间的soft representation,推远负样本对的 soft representation(见Sec 3)...
2022-07-20 20:35:31 1412 1
原创 【论文阅读笔记】(2021 CVPR)Re-labeling ImageNet: from Single to Multi-Labels, from Global to Localized Label
Re-labeling ImageNet: from Single to Multi-Labels, from Global to Localized Labels(2021 CVPR)Sangdoo Yun, Seong Joon Oh, Byeongho Heo, Dongyoon Han, Junsuk Choe, Sanghyuk ChunNotesContributionsIn this paper, we propose a re-labeling strategy, R
2022-05-23 16:44:12 365
原创 【leetcode 78】子集(C 语言)
【leetcode 78】子集(C 语言)将 [0, 2^n] 的数字直接转成二进制,然后按照得到的二进制 mask 输出子集。
2022-04-22 23:38:20 541
原创 【英文论文写作经验分享】1、Abstract 怎么写?
分享一下学到的写作知识和小小的经验,也可以记录一下自己在英文写作过程中遇到的问题。先从写论文的套路开始吧!也是从论文里最重要的 Abstract 开始,它可是决定了读者会不会打开你的论文看的一大重要因素。
2022-03-30 16:32:26 10939
原创 【论文阅读笔记】(2019 ICCV)SlowFast Networks for Video Recognition
论文名称:SlowFast Networks for Video Recognition论文链接:https://arxiv.org/pdf/1812.03982.pdf论文作者:Christoph Feichtenhofer,Haoqi Fan,Jitendra Malik,Kaiming He【Facebook AI Research (FAIR)】写在前面由于关于这篇论文网上已经有比较详细的讲解了,所以我就不做重复的工作了。在引用别人讲解...
2022-03-27 15:29:24 541
原创 【论文阅读笔记】(2s-AGCN)Two-Stream Adaptive Graph Convolutional Networks for Skeleton-Based Action Recognit
写在前面很久之前就出了这篇文章的代码讲解博客:解读 2s-AGCN 代码_小吴同学真棒的博客-CSDN博客_2s-agcn代码意外发现还挺多人阅读和收藏的,那我借着今天再复习这篇论文的时候再补充一下论文的方法笔记吧。Two-Stream Adaptive Graph Convolutional Networks for Skeleton-Based Action Recognition(2019 CVPR)Lei Shi, Yifan Zhang, Jian Cheng, H..
2022-03-22 23:33:24 2620
原创 【论文阅读笔记】(2019 IROS)Action Recognition Based on 3D Skeleton and RGB Frame Fusion
Action Recognition Based on 3D Skeleton and RGB Frame Fusion(2019 IROS)Guiyu Liu, Jiuchao Qian, Fei Wen, Xiaoguang Zhu, Rendong Ying, Peilin LiuNotesContributions• First, based on the skeleton information, we propose a preprocess strategy and d
2022-03-15 16:46:22 1399
原创 【数据集详情笔记】PKUMMD:多模态人体动作检测数据集
PKUMMDNotesDataset URL: PKU-MMDDataset DetailsThis is a large-scale multi-modalities action detection dataset. contains 1076 long video sequences, each of which lasts about 3∼4 minutes (recording ratio set to 30 FPS) and contains approximately
2022-03-11 13:26:53 3924
原创 【Python 代码优化记录】遍历 + concatenate
0、背景【目的】:现有一个数据条数很大(约 25w)的 numpy array:allData。想根据字典 aDict 里的值选取出其中的某些数据(约 2w)条组成一个新的 numpy array:data.原代码大概的逻辑如下:(只放出了和我猜想和结论相关的部分)data = np.array([])for key, value in aDict.items(): data = np.concatenate([data, allData[key]])1、问题代码到后面..
2022-03-08 16:36:14 2740 3
原创 【论文阅读笔记 + 代码解读】(2018 AAAI)ST-GCN
写在前面ST-GCN 是skeleton based action recognition 的开山鼻祖。MMLab 出品,必是精品!开山鼻祖级别的论文必有很多理论 + 数学公式,再加上本人(菜鸡)既不是数学专业又不是计软本科出身的,所以第一次看这篇论文的时候很痛苦。。。所以本来应该很早就要写这篇博客的,被我拖啊拖。。。拖到了 2s-AGCN 的解读博客我都写完好久了,ST-GCN 的还是没出来。。。解读 2s-AGCN 代码_小吴同学真棒的博客-CSDN博客_2s-agcn代码论文:https.
2022-03-02 17:08:35 7822 5
原创 【论文阅读笔记】(2015 CVPR)Hierarchical recurrent neural network for skeleton based action recognition
Representation Learning of Temporal Dynamics for Skeleton-Based Action Recognition(2015 CVPR)AuthorsNotesContributionsWe propose an end-to-end hierarchical RNN for skeleton based action recognition. Instead oftaking the whole skeleton as the in
2022-02-22 16:28:55 2012 1
原创 Data Parallel 的那些事儿(梯度计算、同步 BN ......)
0、写在前面本文是一个学习链接博客。网上已有许多参考文档,故不再重复。我从找到的学习链接中筛选出我认为写得清晰、通俗易懂的部分截取给大家,并加上了我学习过程中的笔记标注。来源已标注,感谢各位大佬博主!1、Data Parallel 工作原理 & 梯度计算pytorch多gpu DataParallel 及梯度累加解决显存不平衡和显存不足问题_gaoyelu的博客-CSDN博客2、Data Parallel 暂时没有 PyTorch 官方的同步,但 DD..
2022-02-20 18:38:58 2128
原创 论文阅读笔记:(2018 ACCV)Cross Pixel Optical-Flow Similarity for Self-Supervised Learning
Cross Pixel Optical-Flow Similarity for Self-Supervised Learning(2018 ACCV: Asian Conference on Computer Vision)Aravindh Mahendran, James Thewlis, Andrea VedaldiNotesContributionsThe authors propose a new self-supervised algorithm by using the
2022-02-04 20:58:08 2014
原创 【跟着代码读论文】ViT(2021 ICLR)An image is worth 16x16 words: Transformers for image recognition at scale
论文: An image is worth 16x16 words: Transformers for image recognition at scale.Github code(PyTorch Implementation):https://github.com/lucidrains/vit-pytorch目录Model OverviewGithub Code UsageProcedure 1 & 2:split an image into fixed-size pa
2021-12-23 12:37:08 1527 1
原创 【论文阅读笔记】(2021 ICCV)Video Pose Distillation for Few-Shot, Fine-Grained Sports Action Recognition
Video Pose Distillation for Few-Shot, Fine-Grained Sports Action Recognition(2021 ICCV)James Hong, Matthew Fisher, Micha¨el Gharbi, Kayvon FatahalianNotes写在前面(中文版自己总结)之前的 AR(Action Recognition) 有两种做法:(1)end-to-end:就是普通的 AR,输入 RGB frames,输出动作的
2021-12-21 13:02:32 531
原创 【论文阅读笔记】(2015 ICML)Unsupervised Learning of Video Representations using LSTMs
Unsupervised Learning of Video Representations using LSTMs(2015 ICML)Nitish Srivastava, Elman Mansimov, Ruslan SalakhutdinovNotesContributionsOur model uses an encoder LSTM to map an input sequence into a fixed length representation. This repre
2021-11-23 17:22:55 703
原创 【论文阅读笔记】(2018 ECCV)Look, Listen and Learn
Look, Listen and Learn(2018 ECCV)Relja Arandjelovi´c Andrew ZissermanNotesContributionsWe introduce a novel Audio-Visual Correspondence (AVC) learning task that is used to train the two (visual and audio) networks from scratch. The AVC t...
2021-11-18 11:02:07 2097 2
原创 【论文阅读笔记】(2017 CVPR)See, Hear, and Read: Deep Aligned Representations
See, Hear, and Read: Deep Aligned Representations(2017 CVPR)Yusuf Aytar, Carl Vondrick, Antonio TorralbaNotesContributionsIn this paper, we learn rich deep representations that are aligned across the three major natural modalities: vision, soun
2021-11-18 10:50:44 3113
转载 【转载】bug 记录:Intel MKL FATAL ERROR: libmkl_avx2.so: undefined symbol: mkl_sparse_optimize_bsr_trsm_i8.
遇到 bug,感谢原链接提供的帮助!本文仅作 bug 记录和解决笔记,不是原创!!!支持原链接:linux anaconda中mkl库的一个坑问题anaconda3中默认链接了一个自己的mkl库。代码中使用到mkl时,会报以下错误:INTEL MKL ERROR: ~/anaconda3/envs/py27/bin/../lib/libmkl_avx2.so: undefined symbol: mkl_sparse_optimize_bsr_trsm_i8.Intel .
2021-10-26 15:13:33 1498
原创 【论文阅读】Revisiting self-supervised visual representation learning
0、写在前面比起其他设计 novel SSL pretext task 的文章,这篇文章主要是做实验探究:network architecture 对 SSL pretext task 后学到 representation 好坏的影响。1、结论Architecture choices which negligibly affect performance in the fully labeled setting, may significantly affect performance in
2021-10-03 13:57:37 558
原创 亲测有效 之 从 Google Drive 上下载大文件
这几天需要从 Google Drive 上下载两个大小分别为 8G 和 15G 的数据集,尝试了几种方法:1、IDM:不能续点重传2、MultCloud:总是传到 30% 左右失败重传3、wget:需要 Linux 系统 + 科学上网(我只能在 win10 下科学上网,条件不符,没有深究)4、Google Drive for Desktop:YYDS感谢:从google drive上下载大文件_w112348的博客-CSDN博客安装完长这样:就像一个硬盘一样,直接复制,粘贴在别的
2021-10-02 17:08:32 6738 6
原创 风格迁移(Style Transfer)首次学习总结
0、写在前面最近看了吴恩达老师风格迁移相关的讲解视频,深受启发,于是想着做做总结。1、主要思想目的:把一张内容图片(content image)的风格迁移成与另一张图片(style image)风格一致。(图自论文:A Neural Algorithm of Artistic Style)方法:通过约束 Content Loss 和 Style Loss 来生成最终的图片。1.0 activation(representation)、kernel(filter)、cha.
2021-09-25 15:45:05 4893 1
原创 【代码 bug 记录】PyTorch 的 Dataloader 如何加载 List 对象?
0、写在前面在记录该问题解决方案的时候,也有在 csdn 上搜到某位小伙伴遇到同样的问题,但没有说明原因。那我就记录一下吧。1、问题之前看到一份代码,在 __init__() 函数中,加载的每一条数据都是一个列表 List【长度为 len_list】,列表中的每一项是一段经过处理的视频,维度为 [C, T, H, W]。所以 dataset 中每一条数据的维度应该是 [len_list, C, T, H, W]。按照以往加载数据的经验,我自然而然地认为用 dataloader 返回.
2021-09-25 13:31:57 2960 2
原创 【论文阅读】(XDC)Self-Supervised Learning by Cross-Modal Audio-Video Clustering
Self-Supervised Learning by Cross-Modal Audio-Video Clustering(2020 NeurIPS)Humam Alwassel, Dhruv Mahajan, Bruno Korbar, Lorenzo Torresani, Bernard Ghanem, Du TranNotesContributionspropose Cross-Modal Deep Clustering (XDC), a novel self-supervi
2021-09-22 15:19:07 875
原创 【论文阅读】:NTU RGB+D 120: A Large-Scale Benchmark for 3D Human Activity Understanding
NTU RGB+D 120: A Large-Scale Benchmark for 3D Human Activity Understanding(2019 TPAMI)Jun Liu, Amir Shahroudy, Mauricio Perez, Gang Wang, Ling-Yu Duan, and Alex C. KotNote论文链接:https://arxiv.org/pdf/1905.04757.pdfGithub:https://github.com/shahroud
2021-08-25 13:29:43 1139
原创 【论文阅读】:NTU RGB+D: A Large Scale Dataset for 3D Human Activity Analysis
NTU RGB+D: A Large Scale Dataset for 3D Human Activity Analysis(2016 CVPR)Amir Shahroudy, Jun Liu, Tian-Tsong Ng, Gang WangNotesContribution1、introduce a large-scale dataset for RGB+D human action recognition2、propose a new recurrent neural n
2021-08-25 12:57:17 1443
原创 论文阅读:(2020 AAAI) Video Cloze Procedure for Self-Supervised Spatio-Temporal Learning
Video Cloze Procedure for Self-Supervised Spatio-Temporal Learning(2020 AAAI)Dezhao Luo, Chang Liu, Yu Zhou, Dongbao Yang, Can Ma, Qixiang Ye, Weiping WangNotes论文:Video Cloze Procedure for Self-Supervised Spatio-Temporal Learning代码:https://git.
2021-07-19 12:58:16 534
tdms转txt文件——TDMSReader.exe(可直接安装使用)
2019-10-16
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人