【算法】ROMP在github问答记录

ROMP介绍

ROMP同时估计了3D人体网格和相机参数,
从3D人体网格,我们可以回归出3D pose,也就是三维骨架,然后利用估计的相机参数,将三维骨架投影回图片中,就可以获得2D姿态了。
ROMP就是要恢复图片中人体的大部分信息,可以说2D姿态是ROMP的副产物。

问答1:

我这里用一样的配置文件,在1070Ti上都能跑到24FPS,你看demo就可以看出来。
请check几件事情,可能限制了速度:
你的摄像头是不是支持在你的运行环境中采集超过20帧每秒,因为大多数一般的摄像头都不支持高帧率采集的。
你的软硬件配置,包括一些用于深度学习计算加速的库有没有安装,例如MKL等。
可能在不同的硬件系统下三维渲染速度会有差异,你可以去掉可视化的部分看一下模型出结果的部分的速度。因为比较FPS的时候是不包括可视化的,因为确实不同设备对可视化的支持程度不一样,而且这部分对速度影响挺大的。

问答2:

对于漏检,可以考虑适当降低lib/config.py中的centermap_conf_thresh, 比如降到0.1.
我这里使用HigherHRNet-32作为预训练模型,用其他2D pose训好的mobilenet开始也可以,但因为ROMP的图片处理方式不太一样,所以也要训一段时间,但应该不会陷入不收敛的情况。
还有一种简洁高效的思路,就是模型蒸馏,直接蒸大模型的输出就好了,我试过蒸小模型,很有效,很快就能训好。
有这方面的问题,可以及时问我,我后面也想蒸一个可以cpu上实时跑的模型用。
关于偏移的问题,只是配置的问题,训练的时候设置的smpl_mesh_root_align=True,测试的时候也要这样设置,就好了。
可能还是lr=0.00005, bs=64比较好训,batch size也不是越大越好的,训练也需要一定的随机性才能跳出局部极值。

问答3

result_parser是将模型输出的Center heatmap 和 parameter map转化成多人mesh结果,就是一个后处理过程。

问答4

单目深度的模糊性在半身的时候会更加明显,导致深度估计的不稳定,可以强化translation的smooth coefficient,来增强稳定性,强制稳定。比如,{‘cam’: OneEuroFilter(3., .0)…}

问答5

  1. The “SMPL param gts” come from Human3.6M. MPI-INF-3DHP doesn’t have the SMPL parameters provided.
  2. The evaluation protocol 1 (Tab. 1) uses the entire 3DPW dataset.
  3. ROMP takes the entire image are input (not the cropped image patches). We don’t need any gts during inference.
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值