《BoundaryFace: A mining framework with noise label self-correction for Face Recognition》文章+代码的解析 难例挖掘。
《TubeR: Tubelet Transformer for Video Action Detection》论文+代码分析 虽然没有完全复现出这篇文章的结果,但有学习到新的知识,这篇文章还是给动作检测提供很多新的思路的,总体来说还是有一定的参考价值,第一个就是编码的方式,不是直接编码,还有是frame聚合成clips所用的方法,等等。欢迎大家指正和探讨,以及解答我还存有疑惑的地方。
基于mediapipe的动作捕捉和unity的人物模型驱动 用到的人体关键点检测的算法是Google开发的基于深度学习的实时多媒体套件,汇集了人体、手部、人脸关键点追踪、物体检测、物体识别等多个流行的视觉任务的成果。整套 Mediapipe正如其名字,专门为便携设备上的多媒体应用设计,模型非常小,在笔记本手机上也能实时跑,跨平台、跨语言。mediapipe实时性是没什么问题。但是是以牺牲了质量为代价的,这种关键点检测一般是用来做动作识别,类似于运动app跳绳计数、判定瑜伽动作标不标准这种。用单目视觉来做人物模型的驱动,总差点意思。
详细讲解: 动作检测中的v-mAP的计算 v-mAP的求法是参考了《Action Tubelet Detector for Spatio-Temporal Action Localization》中的求法,但这篇文章是基于caffe框架的,我熟悉的是pytorch,最终看到了一篇相近动作检测的文章,里面也是用了这篇文章的方法。先说一下数据的走向。输入模型的数据为[b_s,tb,c,h,w],例如:(8,2,3,300,300)就表示有抽取了8帧图片,2表示(当前帧和下一帧的图像数据),3表示三通道(rgb),剩下两维是宽和高。也就是输入模型的有。