【论文笔记】NTU RGB+D

本文详细介绍了 NTU RGB+D 数据集,包括其优势、动作类划分、视图设置以及基准评估的X-Sub和X-View。此外,还提及了传统RNN和LSTM在处理此类数据时的角色。
摘要由CSDN通过智能技术生成

NTU RGB+D

论文链接

NTU RGB + D优势:

  1. 更多的动作类
  2. 每个动作类更多的样本
  3. 类内变换(姿势,环境条件,交互对象,演员年龄,…)
  4. 更多的摄影机视角
  5. 更多的摄影机到对象距离
  6. 使用的Kinect v.2,可提供更准确的深度图和3D关节,尤其与Kinect的先前版本相比更多摄影机设置下

在这里插入图片描述
在这里插入图片描述

动作类:我们总共有60个动作类,分为三大类:每日40个动作(饮酒,进食,阅读等),9个与健康有关的动作(打喷嚏,蹒跚,跌倒等),以及11种相互配合的动作(打孔,踢脚,拥抱等)。

视图:我们同时使用了三个摄像机,以从同一动作中捕获三个不同的水平视图。对于每种设置,三个摄像头都位于相同的高度,但处于三个不同的水平角度:-45°,0°,+ 45°。每个对象被要求执行两次动作,一次是朝左相机,一次是朝右相机。这样,我们捕获了两个正视图,一个为左侧视图,一个为右侧视图,一个为左侧45度视图,另一个为右侧45度视图。三个摄像机分配了一致的摄像机编号。摄像机1始终观察45度视角,而摄像机2和3始终观察正视图和侧视图。为了进一步增加摄像机的视角,在每种设置下,我们都更改了摄像机与被摄对象之间的高度和距离。

基准评估:

  1. X-Sub:在跨学科评估中,我们将40个科目分为训练和测试组。每组包括20个科目。对于此评估,训练和测试集分别具有40,320和16,560个样本。此评估中的训练对象ID为:1、2、4、5、8、9、13、14、15、16、17、18、19、25、27、28、31、34、35、38;其余科目保留供测试。
  2. X-View:为了进行交叉视图评估,我们选择相机1的所有样本进行测试,并选择相机2和3的样本进行训练。换句话说,训练集包括动作的正视图和两个侧视图,而测试集包括动作表演的左右45度视图。对于此评估,训练和测试集分别具有37,920和18,960个样本。

传统RNN和LSTM:

RNN:

h t = σ ( W ( x t h t − 1 ) ) , h t = σ ( V h t ) {\bf h}_t=\sigma\left (\bf W \binom{x_t}{h_{t-1} } \right ),{\bf h}_t=\sigma(\bf V \bf h_t) ht=σ(W(ht1xt))ht=σ(Vht)

在这里插入图片描述

( i f o g ) = ( S i g m S i g m S i g m T a n h ) ( W ( x t h t − 1 ) ) \begin{pmatrix}i\\f\\o\\g\end{pmatrix}=\begin{pmatrix}Sigm\\Sigm\\Sigm\\Tanh\end{pmatrix}\left(\bf W \binom{ {\bf x}_t}{h_{t-1} } \right )

  • 1
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值