图卷积网络进行骨骼识别代码_【骨骼行为识别】中文论文总结（持续更新...）...

最新推荐文章于 2024-06-08 10:03:48 发布

weixin_39918961

最新推荐文章于 2024-06-08 10:03:48 发布

阅读量571

点赞数

文章标签：图卷积网络进行骨骼识别代码

本文链接：https://blog.csdn.net/weixin_39918961/article/details/111663625

版权

我把我看过的一些中文记录下来，这个方向中文的论文并不多。我只看基于深度学习的，15年之前基于傅里叶时间金字塔和隐马尔可夫模型的研究意义不大了，中文要相对英文有一定延迟，所以最好是看18年之后的论文。

[Res-STGCN]基于残差时空图卷积网络的3D人体行为识别（计算机应用与软件 2020）

Link：基于残差时空图卷积网络的3D人体行为识别 - 中国知网

Notes：

这篇论文是基于ST-GCN的，在此基础上加上了几层残差网络。我们关心的残差网络介绍的实在太少，只是画了两个图。就是两个STGCN卷积层加一个残差模块形成一个Res-STGCN块，而每个Res-STGCN块也加了残差模块，叠加几层就形成了整个网络。综合来说大部分原理就是ST-GCN这篇论文，其他就是残差网络。最后数据集用的是NTU RGB+D，代码应该是基于ST-GCN的，最后准确率对比只是和ST-GCN对比，后面对此进行的改进也没提到。总的来说这篇论文很一般，残差网路其实已经很难当创新点了，因为很多论文都用到了，但是只是当做实验处理的一个细节，很少拿出来当创新点的。

多尺度方法结合卷积神经网络的行为识别（计算机工程与应用 2018）

Link：多尺度方法结合卷积神经网络的行为识别 - 中国知网

Notes：

这篇文章是将多尺度思想和卷积神经网络结合的一种方法，用到的还是卷积神经网络，所以思想也是将骨骼数据编码成RGB数据，多尺度是针对于卷积核。原理很简单，但是一些细节是值得拿出来说一下的。对于很多CNN的方法，都是将骨骼数据编码成

的数据，相当于RGB的长宽和通道。这样就会造成长宽不一致，而且每个序列的帧数还可能不一样。文章采取的办法是对序列进行抽样，并且抽样的帧数

和关节数保持一致，这样就能把每一帧编码成一张标准的RGB数据，文章称为行为矩阵。一般情况下，关节数要小帧数很多，而且有的数据集关节数较小，这样就会导致采样的帧数过于稀疏，效果不好。对此采取的一个办法就是在关节维度进行扩充，扩充的方法就是重复填充。对于多尺度，其实就是多种卷积核进行处理，再进行叠加，很好理解。总的来说文章就一个多尺度的创新点吧，而且处理起来也很简单，用的数据集都是相对小的。个人认为CNN做的骨骼行为识别的也就HCN那篇文章还不错，CNN用起来有很多局限，用的最多的还是GCN。

基于CNN与双向LSTM的行为识别算法（计算机工程与设计 2020）

Link：基于CNN与双向LSTM的行为识别算法 - 中国知网

Notes：

这篇文章是用CNN和双向LSTM结合做的骨骼行为识别，CNN用于提取空间特征，双向LSTM用于提取时间特征。原理很简单，我大概看了一下他的细节，因为之前看过不少用CNN做的文章，所以需要CNN我就必看他关于数据处理的操作。既然是CNN，肯定是将骨骼数据编码成RGB数据，关于长宽不一致和帧数不同的问题，文章并没有像我看的上一篇文章那样把长宽非要做成一致的，事实上长宽不一致也是可以卷积的。不同序列采样相同的帧数，文章尝试了三种不同的帧数，最后是

帧效果最好（哎？MSR的关节数不就是

吗？其他数据集也都是

到

左右，这么说长宽一致的效果还是好的）。我们知道LSTM擅长处理序列数据，所以用来提取空间特征相对不错，双向LSTM类似于双向RNN，能够更好的记忆上下文信息，原理我不多介绍了，都很简单，下面是我的一些问题。

我看他的一些网络参数是有些问题的，他说输入数据是

的一维向量，但是上面也说了啊，最好的采样帧数是

，也就是说

时

，那么输入的是

的一维向量？序列从何而来？同样的，采用的数据集主要有两个，一个是

分类，一个是

分类，可以说非常的小。而且，在CNN结构中并没有添加dropout层，训练轮次又设置为100。我就想问这不需要数据增强？难道不会出现过拟合？之前看到一篇英文文章用的是CNN+LSTM，这个只是加了个双向，效果我没有比较，但是感觉当创新点有点牵强。

多流卷积神经网络的骨架行为识别（小型微型计算机系统 2020）

Link：多流卷积神经网络的骨架行为识别

Notes：

这篇文章是一种多流CNN处理再融合的方法。既然说多流，我们来看看是哪几种流，第一流是普通关节信息，这个不用多说；第二流是时域差分（同关节相邻帧的差），也就是之前文章提到的运动信息，这个也经常见到；第三流是空域差分（同帧不同关节的差），这就是两个关节点组成的边啊，图卷积都有的。这么说就说完了，其实这篇文章几乎和HCN方法一模一样，唯一不同的是，相对于HCN，这篇文章加了两两关节的差。有兴趣可以看下我之前博客对HCN的介绍，两篇文章的图几乎一摸一样，卷积层的参数设置的也相同。只不过这篇文章对转换维度没有过多解释，其实这是CNN的一大亮点。最后也是用的NTU RGB+D的数据集，从效果看，也和HCN相当。

多模态轻量级图卷积人体骨架行为识别方法（计算机科学与探索 2020）

Link：多模态轻量级图卷积人体骨架行为识别方法 - 中国知网

Notes：

这篇文章是我们学校人工智能与计算机学院发表的。主框架是基于SGN的，SGN是2020年的一篇顶会。文章是在SGN的基础上加上了一个多模态数据融合和对空间域和时间域分别加入了密集连接网络（DenseNet）。这里的多模态数据融合跟RA-GCN对数据预处理基本上方法是一样的，只不过这篇文章用的特征更多，就是包括：关节点、骨骼边长度、帧差、速度差和速度差长度。这里速度差是指相邻

帧（

）与整体向后移动一帧的相邻

帧（

）之差。融合的方式也很简单，就是将原来的输入通道维度

转换成

，每

个通道放一种特征。这个方法确实在训练时间上比一般的多流网络要短很多，因为不需要简单的复制同样的网络结构给不同的特征。我也用过类似的方法，我将输入通道维度

转换成

，相当于额外加了两种特征。我在ST-GCN上加入特征之后的训练时间大概是原来的1.8倍，而按双流网络的话应该是原来的3倍。这篇文章的第二个改进是在空间卷积部分和时间卷积部分加了DenseNet，这部分其实真的没什么好说的。

weixin_39918961

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
图卷积网络进行骨骼识别代码_【骨骼行为识别】中文论文总结（持续更新...）...

我把我看过的一些中文记录下来，这个方向中文的论文并不多。我只看基于深度学习的，15年之前基于傅里叶时间金字塔和隐马尔可夫模型的研究意义不大了，中文要相对英文有一定延迟，所以最好是看18年之后的论文。[Res-STGCN]基于残差时空图卷积网络的3D人体行为识别（计算机应用与软件 2020）Link：基于残差时空图卷积网络的3D人体行为识别 - 中国知网Notes：这篇论文是基于ST-GCN的，在此...
复制链接

扫一扫