二月的夕雀-CSDN博客

原创图卷积相关论文解读 BlockGCN

在图的VR复形中，条形码通常表示为 birth-death 序列，其中 birth 表示该拓扑对象首次出现的时间点（在滤波过程中的某个阈值），death 表示该对象在滤波过程中消失的时间点，表示为(b, d)。（1）首先是邻接矩阵A的构建：最初采用的方法是固定的拓扑结构（ST-GCN），最近采用的是可学习的邻接矩阵（AA-GCN），能够捕捉物理上连接和断开节点之间的关系。该方法对骨骼图GS上的两个关节之间的相对距离进行编码，使用不同的距离度量（这里使用的是最短路径距离（SPD））。

2024-05-30 17:12:07 623

原创 Mamba

在这样的背景下，状态空间模型架构 —— 以 Mamba 为代表 —— 应运而生，以其线性计算复杂度的优势，展现出处理长序列数据的强大潜力，为 Transformer 模型的替代提供了可能。（3）更简单的架构：将SSM架构的设计与transformer的MLP块合并为一个块，来简化过去的深度序列模型架构，从而得到一个包含selective state space的架构设计。Mamba是一种状态空间模型(SSM)，建立在更现代的适用于深度学习的结构化SSM (简称S6)基础上，与经典架构RNN有相似之处。

2024-05-22 16:55:30 894 1

原创 Transformer

首先进行编码器（2.Encoder block），得到对应的矩阵数据。对于解码器（3.Decoder block），将矩阵数据和由解码器产生的数据作为输入，得到下一步的输出，重复进行，直到结束。首先将单词输入到3个全连接层，得到3个相应的向量数据（Query是查询向量、Key是键向量、Value值向量）。注：上图中的query和key表示的矩阵是概念性的，与真实的矩阵大小有差别。将数据控制在0-1之间，较高的得分会得到增强，而较低的得分会被抑制。这里的按照每个单词有3个数据的索引，得到的Q和K、

2024-05-21 16:28:58 621

原创图卷积相关论文解读 DG-STGCN

现有的基于GCN的方法主要依赖于规定的图形结构（即，手动定义的骨架关节拓扑A），这限制了它们捕获关节之间复杂相关性的灵活性。特别是，DG-GCN使用学习到的亲和矩阵来捕获动态图形结构，而不是依赖于规定的图形结构，而DG-TCN则使用不同的接受域执行组级时间卷积，并合并了一个动态连接骨架融合模块，用于自适应的多层次时间建模。∆A可以是静态的（比如ST-GCN），作为一个可训练的参数，也可以是由模型根据输入样本生成的动态参数（比如AAGCN）。本文的动态体现在A的构建上，不同数据所得到的A是不同的；

2024-05-20 16:54:43 959

原创图卷积相关论文解读 PoseConv3D

PoseConv3D 依赖于 3D 热图体积而不是图形序列作为人体骨骼的基本表示。与基于 GCN 的方法相比，PoseConv3D 在学习时空特征方面更有效，对姿态估计噪声更鲁棒，并且在跨数据集中泛化效果更好。从视频帧中提取二维姿态后，为了将其输入PoseConv3D，将其重新表述为一个三维热图体积。对于视频中的每一帧，首先使用两维姿态估计器（检测+姿态估计）进行二维人体姿态提取。然后，沿着时间维度叠加关节或肢体的热图，并对生成的三维热图体积应用预处理。最后，使用3D-CNN对三维热图体积进行分类。

2024-05-16 13:50:51 241

原创图卷积相关论文解读 CTR-GCN

CTR-GCN的突出贡献有2点：第一，提出一种通道拓扑细化模块，该模块通过对通道维度的压缩与聚合，对每个通道运用不同的图卷积网络进行特征提取。第二，ctr-gc与简化后的多尺度时间卷积模块MS-TCN模块结合，构成了CTR-GCN架构，该模型参数量小，同时相较于baseline提升巨大。M1（·）本质上计算了ψ（xi）和φ（xj）之间的距离，并利用这些距离的非线性变换作为vi和vj之间的信道特定拓扑关系。主要的区别是，使用更少的分支，因为太多的分支会降低推理速度。，CTR-GC以信道级的方式聚合特征。

2024-05-15 17:05:09 1024

原创图卷积相关论文解读 MS-G3D

这种多项式可以看做一种因式分解，我们举个例子：假如 𝑥3+𝑥2+𝑥+1 代表包含中心节点（ 𝑥0 ）、距离中心节点 1 跳的节点（ 𝑥1 ）、 2 跳的节点（ 𝑥2 ）和 3 跳的节点（ 𝑥3 ），因为代表阶次的 𝐾 是从 0 到 𝐾 的，所以 𝐾=0 时只包含 𝑥0；首先在时间域取一个大小为 𝜏 的滑动时间窗口，每一步都会得到一个时空子图 𝐺(𝜏)=(𝑉(𝜏),𝐸(𝜏)) ，其中 𝑉(𝜏) 表示 𝜏 帧所有节点的集合，初始 𝐸(𝜏) 表示组合的邻接矩阵 𝐴~(𝜏) ，如公式（5）。

2024-05-14 16:44:37 721

原创图卷积相关论文解读 AAGCN

ST-GCN的注意力机制灵活性不够，掩码 𝑀𝑘 是与邻接矩阵直接相乘，这里说的相乘是按元素相乘，并不是矩阵相乘。，这两个矩阵分别用来：Bk学习所有数据中的共同模式（也就是所有数据中统一的共性关注点）；（也就是每个数据中独有的关注点），这个图𝐶𝑘对于不同输入样本应当是不同的。（也就是所有数据中统一的共性关注点）。在提取完二阶信息后，作者设计了一个双流网络，以节点特征与骨骼特征分别为输入，共同作用输出识别动作的置信度。，比如对于“行走”动作，手和腿的联系很大，但是手和腿没有直接相连，所以效果不好。

2024-05-14 15:49:41 650

原创图卷积相关论文理解 ST-GCN

第二个子集包含帧间边，它们连接连续帧中的相同节点 𝐸𝐹={𝑣𝑡𝑖𝑣(𝑡+1)𝑖} ,对于一个特定的关节 𝑖 , 𝐸𝐹 中的所有边都将表示它随时间的轨迹。在ST-GCN中，节点node等同于传统卷积的图像像素点，采样函数就是负责指定对每个节点进行图卷积操作时，所涉及到的相邻节点范围，在本文中D = 1, 即一阶相邻节点（直接相连的节点）。(a) 输入骨骼序列的示意图，红色节点为本次卷积计算的中心节点，红色虚线内蓝色节点为其采样的相邻节点。𝑖=1,...,𝑁} ，包括骨架序列中的所有关节。

2024-05-14 13:39:01 612

原创 pyskl目录讲解

保存的网络的配置信息如下所示，为j.py中的内容。包含模型model的配置，数据的配置，还有optimizer优化器的配置，等等。model= dict(= [= [= [data= dict(times=5,optimizer这里给出了配置内容，那为什么能找到代码中这个配置的位置呢？原因在于，是根据register注册器来找到对应类的。比如，根据model中的，你就可以在代码中，找到class。

2024-04-02 20:14:21 1711

原创 CNN（卷积神经网路）个人理解

需要知道的是，分类并不是学到的特征，而是一种应用场景，用来说明神经网络如何通过激活函数和更高维的特征表示来实现分类任务。：神经网络能通过激活函数获取更高维的特征，意味着神经网络可以学习到更加抽象和复杂的特征表示，这些特征可以在更高维的空间中区分不同类别的数据。：值得注意的是，因为一个图片有多个通道的输入，每个卷积核只能处理一个通道。：池化层的作用是对输入的特征图进行下采样，减少参数数量，降低计算复杂度，并增强模型的鲁棒性。中，经过3个卷积核进行卷积后，得到的是3个维度的，然后3个维度合并成一个维度，即。

2024-03-21 18:27:08 1275 1

原创 pytorch学习中 “ 手写数字识别 ” 问题

解决方法：以我的虚拟环境 b 为例，按照以下路径： E:\Anaconda\envs\b\Lib\site-packages\torchvision\datasets下的 mnist.py。E:\Anaconda \ envs \ b \ Lib \ site-packages \ torch \ lib \ libiomp5md.dll #不变。以下更改涉及Anaconda中基本文件的更改，建议保存备份，当出现问题还可以还原。解决方法：问题出自两个 libiomp5md.dll文件重复。

2023-09-18 18:24:59 103 1

原创 pyskl 骨架动作识别（手势识别）

github上的骨架动作识别代码，配置问题详解

2023-04-29 00:12:03 2018 3

qq_54407673的博客