✅💖⚠️▶️➡️🌿🍀🍄🌟⭐❄️✅💖⚠️▶️➡️🌿🍀🍄🌟⭐❄️✅💖⚠️▶️➡️🌿🍀🍄🌟⭐❄️✅💖⚠️
openpose⭐
一:PyTorch-Pose is a PyTorch implementation of the general pipeline for 2D single human pose estimation. The aim is to provide the interface of the training/inference/evaluation, and the dataloader with various data augmentation options for the most popular human pose databases (e.g., the MPII human pose, LSP and FLIC).
- github链接:
https://github.com/bearpaw/pytorch-pose
LSTM⭐
一:基于LSTM的行为识别
TSN⭐
-
wo-stream 卷积网络对于长范围时间结构的建模无能为力,主要因为它仅仅操作一帧(空间网络)或者操作短片段中的单堆帧(时间网络),因此对时间上下文的访问是有限的。视频级框架TSN可以从整段视频中建模动作。和two-stream一样,TSN也是由空间流卷积网络和时间流卷积网络构成。但不同于two-stream采用单帧或者单堆帧,TSN使用从整个视频中稀疏地采样一系列短片段,每个片段都将给出其本身对于行为类别的初步预测,从这些片段的“共识”来得到视频级的预测结果。在学习过程中,通过迭代更新模型参数来优化视频级预测的损失值(loss value)。
-
数据集:UCF101:链接:https://gas.graviti.cn/dataset/hello-dataset/UCF101/download
C3D⭐
-
通过3D卷积操作核去提取视频数据的时间核空间特征。这些3D特征提取器在空间和时间两个维度上操作,因此可以捕捉视频流的运动信息。然后基于3D卷积提取器构造一个3D卷积神经网络,这个架构可以从连续视频帧中产生多通道的信息,然后在每一个通道都分离地进行卷积和下采样操作。最后将所有通道的信息组合起来得到最终的特征描述。C3D网络将完整的视频作为输入,不依赖于任何处理,可以轻松扩展到大数据集。可以应用于行为识别,场景识别,视频相似度分析等领域。具有通用、紧凑、简单、高效的特点。
-
数据集:UCF101:链接:https://gas.graviti.cn/dataset/hello-dataset/UCF101/download
区别
这四种模型在网络结构、数据处理和应用场景等方面存在区别:
- PyTorch - Pose:专注于 2D 单人姿态估计,为相关数据库提供训练等接口和数据加载器,适用于人体姿态分析领域,其优势在于对人体姿态的精准识别与定位,在处理人体关节点检测等任务上表现出色。
- 基于 LSTM 的行为识别模型:利用 LSTM 处理传感器采集的特定行为数据,主要针对如行走、站立等 6 种行为状态进行识别,适用于基于传感器数据的行为分类场景,擅长处理具有时间序列特征的行为数据,对简单行为的分类有较好效果。
- TSN(Temporal Segment Networks):为解决 two - stream 卷积网络时间结构建模问题而设计,从整段视频采样短片段建模,由空间流和时间流卷积网络构成,适用于视频行为识别领域,在处理长视频的行为分析时,能更好地捕捉时间上下文信息,提高识别准确率。
- C3D:通过 3D 卷积提取视频时空特征构建网络,能处理连续视频帧,应用于行为识别、场景识别和视频相似度分析等多个领域,其通用性较强,可扩展性好,能适应不同类型的视频数据处理任务,但在特定任务上的精度可能相对其他专门模型略逊一筹。
✅💖⚠️▶️➡️🌿🍀🍄🌟⭐❄️✅💖⚠️▶️➡️🌿🍀🍄🌟⭐❄️✅💖⚠️▶️➡️🌿🍀🍄🌟⭐❄️✅💖⚠️