关于视频理解

本文探讨了视频理解的关键领域,包括视频分类、时态动作检测、空间行动检测和视频与语言的结合。视频理解的核心在于时态信息建模,如光流计算和RNN的应用。此外,还介绍了视频本地化、视频QA、视频分割和视频字幕等任务,以及相关领域的研究现状和未来挑战。
摘要由CSDN通过智能技术生成

video understanding(视频理解)

整理一

整理网站:https://www.zhihu.com/question/64021205

video understanding中的相关领域

  1. video classification :视频分类(最底层)
  2. temporal action proposal/detection:临时行动建议/检测
  3. spatial action detection:空间行动检测
  4. video+language:视频+语言
  5. video QA:视频 QA

video 与 image 的本质差异:
video有temporal information(时间信息)
研究方向(问题定义),方法设计:围绕temporal
temporal information提供temporal context (时序上下文)
好处:帮助对视频的识别和推理
坏处:信息冗余,提高计算量

扩展

  1. 最底层:video classification (视频分类)
  2. 下一个层次:temporal action detection(时态动作检测&#x
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值