近日,腾讯优图实验室提出一种新的视频动作检测算法DBG并开源,这是继今年4月人脸检测算法DSFD开源后,优图的又一次开源动作。
目前,DBG算法在全球两大权威视频动作数据集ActivityNet-1.3和THUMOS14上均取得了第一。相关论文《Fast Learning of Temporal Action Proposal via Dense Boundary Generator》已被国际人工智能顶级会议AAAI2020接收,与此同时,算法代码已在优图研究官方Github上开源。
Github开源地址:
https://github.com/TencentYoutuResearch/ActionDetection-DBG
论文公开地址:
https://arxiv.org/pdf/1911.04127.pdf
三点创新,探索视频动作检测最优方案
与现有的视频动作检测算法相比,DBG算法有3点创新:
(1)提出一种快速的、端到端的稠密边界动作生成器(Dense Boundary Generator,DBG)。该生成器能够对所有的动作提名(proposal)估计出稠密的边界置信度图。
(2)引入额外的时序上的动作分类损失函数来监督动作概率特征,该特征能够有利于回归动作的完整度。
(3)设计一种高效的动作提名特征生成层,该层能够有效捕获动作的全局特征,便于后面的分类和回归模块。
DBG算法框架图
目前THUMOS14数据集测试集标注已经公开,通过将DBG与现有的开源方法进行对比,DBG在不同指标下的召回率均有显著提升。
突破痛点 ,DBG算法为产业发展助力
目前,动作检测技术已经应用于公司内外的多个业务中,覆盖教育、社交、娱乐、视频等多个场景。以社交娱乐场景为例,短视频APP用户拍摄上传一段原始视频后,基于DBG算法的功能接口,可实现对视频中“跳舞”动作的检测和识别并智能剪辑,帮助用户自动生成更加专业的短视频。
自2017年,腾讯开始加快对外开源节奏,主要覆盖AI、云、游戏、安全、小程序等相关领域,其中计算机视觉技术的开源也是其重要一环。2017年7月,腾讯优图首个AI开源项目NCNN开源,2019年至今已有人脸检测、属性等5项技术开源。腾讯优图将不断研究和探索,通过开源更多新技术为产业发展提供助力。