CVPR 2018视频行为识别挑战赛概览

最新推荐文章于 2023-03-06 17:24:40 发布

weixin_30421525

最新推荐文章于 2023-03-06 17:24:40 发布

阅读量437

点赞数

原文链接：http://www.cnblogs.com/connie-0223/p/connie_20160223.html

版权

　　今天看了下CVPR 2018视频行为识别挑战赛的结果，主要了解：都有哪些行为？通常用什么办法去识别。

关于Moments-in-Time数据集（视频+动作）的类别分布：
- 339 个动作类别，每个类别至少有1000个视频，动作主体可能是人，动物或一般物体；
- 802264 个训练视频；
- 33900 个验证视频；
- 67800 个测试视频。

动作类别示例：

　　英文动词：drying, welding, socializing, stroking, shaving, whistling, diving, writing, rowing, howling, shooting, cheering, bouncing, busking, contact juggling, cracking back, driving car, golf putting, milking cow, playing badminton, canoeing or kayaking, plastering, tapping guitar, hurdling, playing cricket, playing laser tag, washing dishes, playing ukulele, playing recorder, bee keeping, tango dancing, crying, blasting sand, playing pinball, dancing ballet, playing guitar, reading book

　　翻译：烘干, 焊接, 社交, 行程, 刮, 吹口哨, 潜水, 写作, 划船, 嚎叫, 射击, 欢呼, 反弹, 街头艺人, 接触杂耍, 回击, 驾车, 高尔夫推杆, 挤奶牛, 打羽毛球, 皮划艇或皮划艇, 抹灰, 轻拍吉他, 跨栏, 打板球, 打激光标签, 洗盘子, 玩尤克里里, 播放录音机, 养蜂, 探戈跳舞, 哭了, 爆沙, 打弹球, 跳芭蕾舞, 弹吉他, 阅读书

动作类别demo示例

　　（以下是我在官网的图片上读到的内容）

　　bouncing：蹦蹦、弹跳：婴儿在学步车里蹦、儿童在蹦床上蹦、弹簧在反弹、水滴溅到水面
　　swimming：游泳：鲨鱼在游泳、潜水员在潜水、泳池正在进行比赛
　　Falling：下落：瀑布、猫掉下来、儿童摔倒、多米诺骨牌倒下
　　opening：打开：婴儿张大嘴打哈欠、打开首饰盒子、打开剪纸、睁开眼睛
　　Eating：吃：人吃东西、猫狗吃东西、鸟类吃东西
　　Climbing：婴儿爬楼梯、运动员登山、熊猫爬树、攀岩

FullTrack 排行榜：

厂家	竞赛排名	模型	算法说明	准确率（FullTrack）
海康	1	若干模型的组合：若干个基于RGB图像、一个基于音频	提出一种创新的多视图卷积结构，沿着视频数据的三个正交视图进行2D卷积，带有权值共享，可以对视频片段的时空特征进行高效的编码 a novel multi-view convolutional architecture、three orthogonal views of volumetric、spatio-temporal feature	top-1 38.7% top-5 66.9%
旷视	2	五个模型的组合：三个基于RGB图像、一个基于音频、一个基于光流信息	基于空间网络和3D卷积神经网络构建用以提取空间和时域信息。使用了多模态信息：RGB图像、光流和音频 spatial networks 、3D convolutional neural networks spatial and temporal features、multi-modality cues、optical flow 、audio information	top1 38.1% top5 65.3%
七牛云	3	多个模型的组合	基础网络为：非局部神经网络和时域分割网络。用了多模态信息：RGB图像、光流和声信号 non-local neural networks 、 temporal segment networks、Multi-modal	top1 35.81% top5 62.59%
中大	-	多个模型的组合	整合了静态信息、短时信息，长时信息和声学信息 integrate static infor mation, short-term temporal information, long-term tempo ral information and acoustic information	top1 27.9% top5 54%

小结

　　对比了full track排名前三及中山大学的技术报告，共同特点:

　　1多种模型组合（ensemble）

　　2运用多模态的信息包括RGB图像、光流和音频信号

　　3使用卷积神经网络提取时空特征

关于是否用到了RCNN系列

　　海康并没有用到RCNN或LSTM，而是使用了时空CNN（spatiotemporal 卷积神经网络），把3D卷积分解为多视图卷积，即沿着视频数据的三个正交视图进行2D卷积

　　旷视和中大有用到LSTM

　　七牛云也没用RCNN

参考文献

　　[1] CVPR 2018视频行为识别挑战赛结果出炉：前三名均由国内团队包揽 https://mp.weixin.qq.com/s/9HO0-0z5oQFF6fUMR_0P4Q

　　[2] 数据集官网 http://moments.csail.mit.edu/#

　　[3] Moments in Time：IBM-MIT联合提出最新百万规模视频动作理解数据集 https://www.leiphone.com/news/201712/u3s9hDsH7Da0wKrc.html

　　[4]【ICCV 2017论文笔记】我们应当如何理解视频中的人类行为？ https://zhuanlan.zhihu.com/p/29227174

转载于:https://www.cnblogs.com/connie-0223/p/connie_20160223.html

weixin_30421525

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
CVPR 2018视频行为识别挑战赛概览

　　今天看了下CVPR 2018视频行为识别挑战赛的结果，主要了解：都有哪些行为？通常用什么办法去识别。关于Moments-in-Time数据集（视频+动作）的类别分布：339 个动作类别，每个类别至少有1000个视频，动作主体可能是人，动物或一般物体；802264 个训练视频；33900 个验证视频；67800 个测试视频。动作类别示例：...
复制链接

扫一扫