CVPR 2018视频行为识别挑战赛概览

  今天看了下CVPR 2018视频行为识别挑战赛的结果,主要了解:都有哪些行为?通常用什么办法去识别

  • 关于Moments-in-Time数据集(视频+动作)的类别分布:
    • 339 个动作类别,每个类别至少有1000个视频,动作主体可能是人,动物或一般物体;
    • 802264 个训练视频;
    • 33900 个验证视频;
    • 67800 个测试视频。
  • 动作类别示例:
  英文动词:drying, welding, socializing,  stroking, shaving, whistling, diving, writing, rowing, howling, shooting, cheering, bouncing, busking, contact juggling, cracking back, driving car, golf putting, milking cow, playing badminton, canoeing or kayaking, plastering, tapping guitar, hurdling, playing cricket, playing laser tag, washing dishes, playing ukulele, playing recorder, bee keeping, tango dancing, crying, blasting sand, playing pinball, dancing ballet, playing guitar, reading book
 
  翻译:烘干, 焊接, 社交, 行程, 刮, 吹口哨, 潜水, 写作, 划船, 嚎叫, 射击, 欢呼, 反弹, 街头艺人, 接触杂耍, 回击, 驾车, 高尔夫推杆, 挤奶牛, 打羽毛球, 皮划艇或皮划艇, 抹灰, 轻拍吉他, 跨栏, 打板球, 打激光标签, 洗盘子, 玩尤克里里, 播放录音机, 养蜂, 探戈跳舞, 哭了, 爆沙, 打弹球, 跳芭蕾舞, 弹吉他, 阅读书
 
  • 动作类别demo示例
  (以下是我在官网的图片上读到的内容)

  bouncing:蹦蹦、弹跳:婴儿在学步车里蹦、儿童在蹦床上蹦、弹簧在反弹、水滴溅到水面
  swimming:游泳:鲨鱼在游泳、潜水员在潜水、泳池正在进行比赛
  Falling:下落:瀑布、猫掉下来、儿童摔倒、多米诺骨牌倒下
  opening:打开:婴儿张大嘴打哈欠、打开首饰盒子、打开剪纸、睁开眼睛
  Eating:吃:人吃东西、猫狗吃东西、鸟类吃东西
  Climbing:婴儿爬楼梯、运动员登山、熊猫爬树、攀岩

  • FullTrack 排行榜: 
厂家竞赛排名模型算法说明准确率(FullTrack)
海康1
若干模型的组合:若干个基于RGB图像、一个基于音频
提出一种创新的多视图卷积结构,沿着视频数据的三个正交视图进行2D卷积,带有权值共享,可以对视频片段的时空特征进行高效的编码
a novel multi-view convolutional architecture、three orthogonal views of volumetric、spatio-temporal feature

top-1  38.7% 

top-5 66.9%

旷视2
五个模型的组合:三个基于RGB图像、一个基于音频、一个基于光流信息
 
基于空间网络和3D卷积神经网络构建用以提取空间和时域信息。使用了多模态信息:RGB图像、光流和音频
spatial networks 、3D convolutional neural networks 
spatial and temporal features、multi-modality cues、optical flow 、audio information 
top1 38.1%
top5 65.3%
 
七牛云3
多个模型的组合
基础网络为:非局部神经网络和时域分割网络。用了多模态信息:RGB图像、光流和声信号
non-local neural networks 、 temporal segment networks、Multi-modal
 
 
 

top1 35.81% 

top5  62.59%

中大-
多个模型的组合
整合了静态信息、短时信息,长时信息和声学信息
integrate static infor
mation, short-term temporal information, long-term tempo
ral information and acoustic information
top1 27.9%
top5 54%
 
 
 

 

  • 小结

  对比了full track排名前三及中山大学的技术报告,共同特点:

  1多种模型组合(ensemble)
  2运用多模态的信息包括RGB图像、光流和音频信号
  3使用卷积神经网络提取时空特征
 
  • 关于是否用到了RCNN系列
  海康并没有用到RCNN或LSTM,而是使用了时空CNN(spatiotemporal  卷积神经网络),把3D卷积分解为多视图卷积,即沿着视频数据的三个正交视图进行2D卷积
  旷视和中大有用到LSTM
  七牛云也没用RCNN
  • 参考文献
  [1] CVPR 2018视频行为识别挑战赛结果出炉:前三名均由国内团队包揽  https://mp.weixin.qq.com/s/9HO0-0z5oQFF6fUMR_0P4Q
  [2] 数据集官网 http://moments.csail.mit.edu/#
  [3] Moments in Time:IBM-MIT联合提出最新百万规模视频动作理解数据集 https://www.leiphone.com/news/201712/u3s9hDsH7Da0wKrc.html
  [4]【ICCV 2017论文笔记】我们应当如何理解视频中的人类行为? https://zhuanlan.zhihu.com/p/29227174
 

转载于:https://www.cnblogs.com/connie-0223/p/connie_20160223.html

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值