LightTrack-京东数字科技
LightTrack: A Generic Framework for Online Top-Down Human Pose Tracking
作者:
摘要
此篇文章中提出新的有效的轻便网络,称为LightTrack,用于在线human pose tracking。提出的框架对自上而下的posetracking通用,快于现存的线上线下方法。单人姿势跟踪(SPT)和视觉对象跟踪(VOT)被整合到一个统一的功能实体中,可通过可更换的单人姿势估计模块轻松实现。整合单人pose tracking和多人重识别。利用object tracking桥接keypoints tracking。同时提出一个孪生图卷积网络用于human pose matching作为pose tracking systerm中的一个重识别的模块。对比其他的Re-ID模块,用graph表示human joints matching。基于skeleton的表示有效捕捉human-pose-similarity且计算量小。引进human-drifting对相机轻微抖动鲁棒。这是第一篇在线从上到下的human-pose-tracking框架,所提出的框架足够通用已适合其他姿势估计器和候选匹配机制。
code:https://github.com/Guanghan/lighttrack
introduction
VOT视觉特征北kernel或CNN feature map隐士表示,此方法中跟踪pose以显示方式递归更新bounding box和对应的pose,从keypoints显示特征推断目标的bounding box region。将ketpoints视为显示特征的好处:(1)显示特征是human相关的和可解释的,且与bounding box 位置有强的和稳定的关系;(2)pose估计和tracking需要在第一个位置预测出human-pose,充分利用预测的keypoints在tracking中可以获得ROI region,几乎是free的,这个机制使得在线跟踪可能实现;(3)它自然的保持候选的id,可以缓解数据相关的负担。即使需要数据关联,也可以重新使用姿势特征进行基于骨架的姿势匹配。Single Pose Tracking (SPT) and Single Visual Object Tracking (VOT)可以合并为一个功能块,通过替换单人pose估计模块容易实现。
(待续)
Efficient Ladder-style DenseNets for Semantic Segmentation of Large Images
《对于大图像语义分割的有效阶梯式DenseNets》
作者:克罗地亚
摘要:
语义分割的过渡被GPU的严格内存限制。卷积反向支持所需的特征映射缓存的范围甚至对形状尺寸大的Pascal图像提出了重大挑战,同时当源分辨率在百万像素范围内时需要仔细考虑体系结构。为了处理这些关注点,提出一个新的基于Densenet的阶梯式结构,具有高建模功率和非常精简的上采样数据通路。同时提出通过利用DenseNet特征提取器的固有效率来大幅减少特征映射缓存的范围。结果与当前最好方法相比,参数量减少,性能好,并且允许在百万分辨率上训练。训练数据:Cityscapes,Pascal VOC2012,CamVid,ROB2018,从预测精确度和速度都超过当前最好方法。
问题:
语义分割过程中产生的计算量和参数量对GPU的内存产生挑战;语义分割结构对图像分辨率的挑战,一般是固定的分辨率,无法扩展。
现有硬件的现存大小限制语义分割方面利用新的网络结构训练新的算法的潜力。
方法:
利用Densenet固有效率减少特征映射缓存;设计新的基于Densenet的阶梯式结构,建模效率提高,包含精简的上采样数据通路。
效果: