Applied Cloud Deep Semantic Recognition: Advanced Anomaly Detection(应用云深层语义识别:高级异态检测)——Chapter 1...

Chapter 1

(by Guangnan Ye from IBM T.J. Watson Research Center  in  Yorktown Heights, New York)

Large-Scale Video Event Detection Using Deep Neural Networks

1.1 Motivation

随着视频拍摄设备的普及和不断增长的社交媒体视频分享,用户视频产量在网络上呈爆炸式增长。举个栗,YouTube有超过10亿的用户,平均每分钟会有时长达300小时的视频传到上面。另一个媒体(比如视频,图片,音频)分享网站,Facebook,据报道每个美国人在其上上传的视频量比上年增长了94%。

  现在亟需打造一种智能的,稳健的,高效的查询与检索系统来组织和编录这些网络视频。现在的商用视频搜索引擎几乎都是使用文本关键字来匹配搜索,而不是通过视频里面的视觉信息。这样的引擎通常不尽如人意,因为文本信息是模糊的,信息量也不够,还有一个大家都知道的“语义鸿沟”,也让关键字匹配引擎在现实场景中行不通。感谢最近几年对计算机视觉和多媒体的研究进展,研究者们尝试着去对人,物,场景,行为,和复合事件等进行辨识,并用于此学到的语义学去对视频进行语义辨识与整理。本章我们着力于分析和检测视频中的事件。这里的自动辨识视频内复合事件的含义是“在某特定场景中,对其中的人与人及人与物之间的复合的互动行为作出判别”。比起物体,场景与行为识别,复合事件检测更具挑战性,因为它通常综合了物体,场景和人类行为的各种复杂交互。复合事件检测通常要求要对视频有充分的语义理解,从而在很多应用案例中充满潜力,譬如消费内容管理,商业广告推送,监控视频分析,等等。

  一般来讲,自动辨识系统,如图1.1所示之例,包含三个基本组件:特征提取器,分类器,模型融合器。给定一组视频训练集,先进的系统会从中提取出不同类型的特征。这些特征可以是:人为设计的低等特征,比如那些不包含任何语义信息的诸如SIFT(尺度不变特征变换),MFCC(梅尔倒谱系数)等;或用来定义确切概念型分类的中等特征;以及训练出的概念型分类器所给出的对于可能性的评分作为概念型特征。在特征提取器之后,从多种不同模式中提取出来的特征被用于训练分类器。然后融合器上阵,统计从多种数据源得来的分值,生成检测结果。在本章,我们通过自显式事件型概念的一系列实例来研究事件检测(如图1.1编号2所示)。

  从视频中分析检测复合事件,需要对视频内容有一个语义上的表示。概念型特征表现不仅可以在可描述的语义空间内描绘出一个复合事件,以对事件进行zero-shot检索,还可以帮助中等特征进行监督式事件建模。这里的“zero-shot检索”是指,需要检索的目标比较新颖,从而导致没有足够的训练样本为这个特别的目标训练一个机器学习型分类器。一个关键的研究难题是,如何为各种事件生成一个概念集。

  

  

 

转载于:https://www.cnblogs.com/oler/p/9651925.html

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值