行为检测(一)：openpose、LSTM、TSN、C3D等架构实现或者开源代码总结

本文链接：https://blog.csdn.net/m0_51004308/article/details/119803301

文章目录

✅💖⚠️▶️➡️🌿🍀🍄🌟⭐❄️✅💖⚠️▶️➡️🌿🍀🍄🌟⭐❄️✅💖⚠️▶️➡️🌿🍀🍄🌟⭐❄️✅💖⚠️

openpose⭐

一：PyTorch-Pose is a PyTorch implementation of the general pipeline for 2D single human pose estimation. The aim is to provide the interface of the training/inference/evaluation, and the dataloader with various data augmentation options for the most popular human pose databases (e.g., the MPII human pose, LSP and FLIC).

github链接：
https://github.com/bearpaw/pytorch-pose

LSTM⭐

一：基于LSTM的行为识别

数据集：https://archive.ics.uci.edu/ml/machine-learning-databases/00240/
相关博客：点击这里

TSN⭐

wo-stream 卷积网络对于长范围时间结构的建模无能为力，主要因为它仅仅操作一帧（空间网络）或者操作短片段中的单堆帧（时间网络），因此对时间上下文的访问是有限的。视频级框架TSN可以从整段视频中建模动作。和two-stream一样，TSN也是由空间流卷积网络和时间流卷积网络构成。但不同于two-stream采用单帧或者单堆帧，TSN使用从整个视频中稀疏地采样一系列短片段，每个片段都将给出其本身对于行为类别的初步预测，从这些片段的“共识”来得到视频级的预测结果。在学习过程中，通过迭代更新模型参数来优化视频级预测的损失值（loss value）。
数据集：UCF101：链接：https://gas.graviti.cn/dataset/hello-dataset/UCF101/download
代码链接：https://github.com/yjxiong/tsn-pytorch

C3D⭐

通过3D卷积操作核去提取视频数据的时间核空间特征。这些3D特征提取器在空间和时间两个维度上操作，因此可以捕捉视频流的运动信息。然后基于3D卷积提取器构造一个3D卷积神经网络，这个架构可以从连续视频帧中产生多通道的信息，然后在每一个通道都分离地进行卷积和下采样操作。最后将所有通道的信息组合起来得到最终的特征描述。C3D网络将完整的视频作为输入，不依赖于任何处理，可以轻松扩展到大数据集。可以应用于行为识别，场景识别，视频相似度分析等领域。具有通用、紧凑、简单、高效的特点。
数据集：UCF101：链接：https://gas.graviti.cn/dataset/hello-dataset/UCF101/download
代码链接：https://github.com/Niki173/C3D
相关博客：https://blog.csdn.net/weixin_47349091/article/details/113484959?ops_request_misc=&request_id=&biz_id=102&utm_term=c3d%20pytorch%E4%BB%A3%E7%A0%81%E5%A4%8D%E7%8E%B0&utm_medium=distribute.pc_search_result.none-task-blog-2_allsobaiduweb~default-1-.pc_search_result_control_group&spm=1018.2226.3001.4187

区别

这四种模型在网络结构、数据处理和应用场景等方面存在区别：

PyTorch - Pose：专注于 2D 单人姿态估计，为相关数据库提供训练等接口和数据加载器，适用于人体姿态分析领域，其优势在于对人体姿态的精准识别与定位，在处理人体关节点检测等任务上表现出色。
基于 LSTM 的行为识别模型：利用 LSTM 处理传感器采集的特定行为数据，主要针对如行走、站立等 6 种行为状态进行识别，适用于基于传感器数据的行为分类场景，擅长处理具有时间序列特征的行为数据，对简单行为的分类有较好效果。
TSN（Temporal Segment Networks）：为解决 two - stream 卷积网络时间结构建模问题而设计，从整段视频采样短片段建模，由空间流和时间流卷积网络构成，适用于视频行为识别领域，在处理长视频的行为分析时，能更好地捕捉时间上下文信息，提高识别准确率。
C3D：通过 3D 卷积提取视频时空特征构建网络，能处理连续视频帧，应用于行为识别、场景识别和视频相似度分析等多个领域，其通用性较强，可扩展性好，能适应不同类型的视频数据处理任务，但在特定任务上的精度可能相对其他专门模型略逊一筹。

✅💖⚠️▶️➡️🌿🍀🍄🌟⭐❄️✅💖⚠️▶️➡️🌿🍀🍄🌟⭐❄️✅💖⚠️▶️➡️🌿🍀🍄🌟⭐❄️✅💖⚠️