Multimodal Gesture Recognition Using 3-D Convolution and Convolutional LSTM

最新推荐文章于 2024-07-22 22:12:59 发布

流星逐月

最新推荐文章于 2024-07-22 22:12:59 发布

阅读量2.7k

点赞数 2

分类专栏： paper 文章标签：手势识别三维卷积

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/u010106759/article/details/78736067

版权

本文介绍了使用3D卷积网络和卷积LSTM进行手势识别的方法，通过结合RGB和深度数据的多模态融合提升识别率。团队采用C3D网络为基础，加入BN层，并利用空间金字塔池化提取不同尺度特征。训练过程中，对RGB和深度数据进行预处理，然后分别训练和预训练，最后通过简单的加权平均进行多模态融合。

摘要由CSDN通过智能技术生成

前言

因为最近再看C3D+LSTM手势识别方面的文章，故记录一下，一方面来加深理解记忆，另一方面以备后面回顾复习

团队介绍

作者来自西安电子科技大学软件学院

Motivation

１：利用三维卷积网络学习较短的时空特征，然后利用卷积LSTM构建长时的时空特征。这个套路很熟悉，在上一篇笔记《Temporal Activity Detection in Untrimmed Videos with Recurrent Neural Networks
》中是利用C3D+LSTM框架，区别在于这篇文章是自己简单设计了三维卷积网络和卷积LSTM（上一篇是LSTM）。２：在多模态数据（RGB 和depth）上相互pre-train和finetune能提升识别率（今年Chalearn isolated gesture recognition challenge中一个参赛队伍就利用了这个trick ）。

Framework

这里写图片描述
各个模块介绍：

3DCNN

最低0.47元/天解锁文章

关注

2
点赞
踩
11

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。