资源链接 https://google.github.io/mediapipe/
BlazePose
解读链接 https://blog.csdn.net/jILRvRTrc/article/details/108590889
论文链接 https://link.zhihu.com/?target=https%3A//arxiv.org/abs/2006.10204
亮点:
1. 采用人脸检测器加上个别人体位置(肩膀,臀部中心)去做人体检测器。 这些点位置比较稳定,变化比较少。
2. 训练用heatmap去做约束,之后finetune 和 前向 只考虑直接回归的分支
3. 人体关键点同时 预测出 置信度(可见度)。
4. 只做一次人脸检测,后一帧用上一帧人体关键点计算出的框。当点数少于某个阈值时,再用人脸检测器。
BlazePalm
解读链接 https://www.sohu.com/a/338372505_670669
论文链接 https://arxiv.org/abs/2006.10214
亮点:
1.训练方式:一种数据集对应一种head,共享backbone
2.采用手掌检测器,同样利用上帧的点计算出框避免多次使用手掌检测器
3.图像由2D变3D进行标记,包括距摄像头的距离
4.先做手掌检测,再手指关键点,最后映射成手势
BlazeFace
解读链接 https://www.itsiwei.com/24721.html
论文链接 https://arxiv.org/pdf/1907.05047v1.pdf
亮点:
1.BlazeBlock的设计,dwconv的计算量远小于1x1conv,所以增加dwconv的卷积核不会增加整体的计算量。
2.Anchor的改进,在达到一定的分辨率后,在往下降没意义,所以在8x8处结束得出featuremap。
3.后处理用融合策略代替了非极大值抑制(以为8x8特征图的锚框可能产生多个重复的结果)
4.实时性170~1600fps