视频实时多人姿态估计 cpu fps33+

基于人体姿态的时空动作检测(cpu fps25+)
实时视频动作检测(action detection)
基于人体姿态的跌倒检测.
yolov5 烟雾和火焰检测
文章用到的恒源云详细说明

多人姿态估计是近几年众多领域研究的热点问题。在学科交叉研究方面,人体姿态估计及到计算机科学、运动人体科学、环境行为学和材料科学等。随着相关研究的逐步深入以及计算机视觉、5G通信的飞速发展,人体姿态估计技术已应用于自动驾驶、影视创作、安防异常事件监测和体育竞技分析、康复等实际场景。成为人工智能领域研究的前沿课题,此类研究也将在竞技体育、运动康复、日常健身等方面发挥非常重大的意义。

采用类似centernet结构。
1.Backbone很简单
2.Header的构建就更简单了,输入backbone的特征图,经过各自的几个卷积层,最后输出各自维度的特征图即可。head_center,head_reg,head_offset以便说明:head_heatmap的维度是[N,K,H,W],n是batchsize,训练时自己指定,预测时一般为1;K代表关键点数量,比如17;H、W就是对应的特征图了,这里输入是192x192,降采样4倍就是48x48;它所代表的意义就是当前图像上所有人的关键点的heatmap,注意是所有人的;head_center的维度是[N,1,H,W],这里的1代表的是当前图像上所有人的中心点的heatmap,你可以简单理解为关键点,因为只有一个,所以通道为1;即每一个人的所有关键点的算术平均数,但是我实测这样效果并不好,我自己最终是取得所有关键点得最大外接矩形的中心点,当存在一些较远的关键点的时候,可能算术平均数可以很好的训练大部分距离近的点,但是对较远的点效果差点,而我比较关注手腕这种较远的点,按我这么取对每一个点学习起来差不多,这个就仁者见仁智者见智了,以自己场景实验结果为准;head_reg的维度是[N,2K,H,W],K个关键点,坐标用x,y表示,那么就有2K个数据,就是对应这里的2K通道;那么数据如何构造呢?根据模型结构的拆解,就是在每个人的center坐标位置,按2K通道顺序依次赋值x1,y1,x2,y2,…,这里的x、y代表的是每个人的关键点相对于中心点的偏移值,原始用的是特征图48尺寸下的绝对偏移值,实测换成相对值(即除以size48转换到0-1区间)也是可以的,可以稍微加快收敛,不过几乎没有区别;head_offset的维度是[N,2K,H,W],通道意义一样都是对应K个关键点的坐标,只不过上面是回归偏移值,这里是offset,含义是我们模型降采样特征图可能存在量化误差,比如192分辨率下x=0和x=3映射到48分辨率的特征图时坐标都变为了0。
在这里插入图片描述
在这里插入图片描述
源码直接用预训练没有训练代码源码下载
demo视频
下载后有问题可以加) 568897492

  • 3
    点赞
  • 62
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 9
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 9
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

tf_q568897492

你的鼓励是我最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值