《论文阅读》An Efficient PointLSTM for Point Clouds Based Gesture Recognition

留个笔记自用

An Efficient PointLSTM for Point Clouds Based Gesture Recognition

做什么

在这里插入图片描述
Gesture Recognition手势识别,常见的手势识别使用的是RGB视频
在这里插入图片描述
这里论文使用的是Shrec’17 track: 3d hand gesture recognition using a depth and skeletal dataset所提供的数据集,也就是手部手势识别

做了什么

在这里插入图片描述
这里将手势识别表述为一个不规则序列识别问题,相比于RGB数据,点云精确地描述了物体表面潜在的几何结构和距离信息。
上图的a情况是假象型,假设的是当前帧也就是第t帧的点云中每个点都能找到t-1帧的点云中的点与它对应,也就是下一帧时点云中点的变化轨迹都能对应,然后使用同样的点轨迹进行状态更新
然后就是b类型,连接当前点的特征和先前点的相邻状态,使用加权共享的LSTM来更新每个点对的状态,然后汇聚一下,这样的话就防止了两帧间点云没有对称的情况,t帧点可以找t-1帧的相邻点
上面两者图中的s就是坐标,f是特征,两个组成一个点的元素

怎么做

首先还是老样子,定义一个输入P
在这里插入图片描述
这里的P表示某一帧的点云,总共有T帧,整个P是一个点云序列,每个时刻的P有Pi(t)个即nt个点
然后这里假设的是可能出现第二种情况,也就是可能点云中的点不存在时间序列的对应关系(但也不排除对应可能)
每个点可以解释成两个部分,一个d维的坐标xi和一个m维的特征fi,N(xi)是这个点pi的邻域
在这里插入图片描述
常见的LSTM可以这么定义👆
接下来假设两种情况来对上式进行改变,第一种Point-independent states也就是点独立情况,第二种Point-shared states也就是点共享情况
首先是独立情况
这里点独立的意思是每个点pi均有它独立的隐藏状态hi和细胞状态ci
对于每个点对(pi(t),pj(t-1)),这里的意思就是t帧的第i个点和t-1帧的第j个点,这里的j个点均是第i个点的邻域。之后就可以对其更新
在这里插入图片描述
在这里插入图片描述
首先,先将两个对应点的坐标作相对差,再和当前帧的特征concat起来作为当前对应的特征提取。使用LSTM对这个对应关系的h和c进行更新。最后再将i点的所有邻域中的对应关系通过一个g函数(max-pool层)聚合在一起。最终得到这个点pi(t)的h和c
在这里插入图片描述
然后是点共享情况
这里就是为了节约时间和资源,假设在第t帧中的所有点都共享一个隐藏状态h和细胞状态c
在这里插入图片描述
在这里插入图片描述
整体的公式和上面解释几乎相同,区别就是从对应关系改成了点,从点改成了帧,这里的g改成了avg-pool
在这里插入图片描述
定义完了更新方式,来回头看看怎么定义邻域
这里也假设了两种定义邻域的方式。第一种是Direct grouping,第二种是Aligned grouping
首先是Direct grouping,这种定义邻域方式就很简单了,根据p点在t帧的位置,在t-1帧使用knn来寻找邻域点
第二种是Aligned grouping,这里的意思是根据两帧中的 centroid point质心点的移动来进行其余点的对齐
在这里插入图片描述
简单来说就是计算t帧所有点的中心点和t-1帧所有点的中心点,计算这两个中心点的位移后就默认将t帧所有其余点的位移与中心点的位移方式相同
接下来就是整体模型结构的展现
在这里插入图片描述
整体结构有5个stage,第一个stage是用spatial grouping提取内部特征,第二个stage到第四个stage是用spatial-temporal grouping and density basedsampling提取内部特征。
在这里插入图片描述
这里的基于密度的采样的意思就是,对于点pi在位置xi,r是knn的半径大小,这里的意思就是计算x邻域的密度大小,根据小密度来进行点的sample选择
第五个stage是提取点状特征,然后再使用一个max-pooling得到全局特征。具体点说,这里的baseline使用的是FlickerNet
在这里插入图片描述
第一个stage的feature extrator和第二到第四个的feature extrator均是PointNet++中的类似结构。
PointLSTM可以直接嵌入现有的模型结构中,同时这里为了验证PointLSTM在不同stage中的效果,还设计了多款
首先是PointLSTM-raw,这里是将第一个内部特征的提取层直接换成PointLSTM
然后是PointLSTM-early, middle, and late,这里是将第二个stage到第四个stage的三个部分分别换成PointLSTM。最后也展示了各自的结果↓
在这里插入图片描述

总结

1.非常值得学习的一种做法,同样也算是一个即插即用的
2.感觉在点的对应上还有很大的上升空间,因为这种对应方式无法适应非常快速的运动

  • 0
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 3
    评论
街道树木从移动激光雷达点云中的提取和分割是一项基于激光雷达技术的任务,旨在识别和定位城市街道上的树木。移动激光雷达通过扫描周围环境并记录返回的激光脉冲来获取三维点云数据。在进行树木提取和分割任务时,需要对点云数据进行处理和分析。 首先,对点云数据进行预处理,包括去除噪声和离群点。然后,使用聚类算法将点云数据分为不同的群集。由于树木通常具有密集且连续的点云分布,聚类算法可以识别出树冠的形状和边界。 接下来,使用分割技术将树木从其他环境中的点云分离出来。分割方法可以基于点云的特征信息,如高度、颜色和形状等。通过分析这些特征信息,可以将树木与其他地面上的物体(如建筑物、道路、车辆等)区分开来。 在进行分割后,可以应用形态学和滤波等算法对树木进行形态学特征的提取和优化。这些操作有助于进一步减少噪声和提高树木的准确性。 最后,根据树木的位置信息,可以创建树木分布地图或树木数据库,用于城市规划、环境监测和生态保护等领域。这些信息可以帮助城市管理者更好地了解和保护城市绿化资源。 总的来说,街道树木从移动激光雷达点云中的提取和分割是一项技术复杂的任务,通过对点云数据进行处理和分析,可以准确地定位和识别出城市街道上的树木,为城市绿化管理提供有价值的信息。
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值