应该是这辈子最后一篇人体行为检测方面的论文了,以后可能走中医望诊方面的研究道路。也算是5年来的一个总结了。发明专利已下,论文还在无休止的修改、重投当中,能中个2区就谢天谢地了。
深度神经网络总图如下,是一个端到端的模型:
主要步骤:
1、通过卷积神经网络识别人体的基本动作,并通过自研的TAL技术(在上一篇论文中提出了一种探进式的temporal action localization算法),提取视频中基本动作的持续时间,并在时序维度进行排序组合。完成“视频-->文字”的转化;
2、将动作词通过word2vec进行量化,结合第1步提取的时间构建一个小尺度的浮点矩阵。并构建一个多尺度浅层神经网络进行行为识别
3、在模型训练方面,通过词语组合进行训练,实现了0视频样本的模型训练目的。
结果不是太好,但对于没有真实视频样本的情况来说,还是可圈可点,模型训练耗时非常少(10个epoch可完成模型训练,几乎是瞬间),同时准确率也达到了71.43%
创新点:
1、通过动作组合,在语义层对人体行为进行描述;
2、将视频识别转变为语义相似度问题;
3、通过两个神经网络,构建了一个端到端的零样本人体行为识别模型。