参考:https://zhuanlan.zhihu.com/p/103566134
参考博客:https://blog.csdn.net/qq_31470761/article/details/104655762?utm_medium=distribute.pc_aggpage_search_result.none-task-blog-2allfirst_rank_v2~rank_v25-1-104655762.nonecase&utm_term=eco%E8%A1%8C%E4%B8%BA%E8%AF%86%E5%88%AB%E9%A2%84%E6%B5%8B
https://blog.csdn.net/SIGAI_CSDN/article/details/82828114
本文目录:
一.行为识别背景
二.行为识别总结
三.接下来的安排
四.一些心得总结
一.背景
行为识别Action Recognition是指对视频中人的行为动作进行识别,即读懂视频。根据要处理的动作类别和真正要处理的任务不同,在各种情况下所说的行为识别的任务略有差异,首先对两组概念进行对比和区分:
1.Hand gesture, Action, Activity
Hand gesture:集中于处理视频片段中单人的手势
Action:短时间的行为动作,场景往往是短视频片段的单人行为,比如Throw,catch,clap等
Activity:持续时间较长的行为,场景往往是较长视频中的单人或多人行为,例如Reading a book,making a phone call, eating, talking to each other, hugging,palying basketball等
这里提一句,Action和Activity的主要区别在于Action是指动作,Activity是指行为,可以认为Action的粒度更细,而Activity的粒度更粗,也可以说Action是Activity的子集。但其实在实际的算法中,有时候也没必要将二者完全区分开。
2.Classification,Detection
Classification:给定预先裁剪好的视频片段,预测其所属的行为类别
Detection:视频是未经过裁剪的,需要先进行人的检测where和行为定位(分析行为的始末时间)when,再进行行为的分类what。
我们这里所涉及到的行为识别Action Recignition可能是Hand gesture/Action/Activity和Class