作者:yujie yanan
腾讯云智媒体AI中台是为传媒行业量身打造的解决方案,旨在提供智能化、全流程、一站式的AI中台及开箱即用的智能编目、智能拆条等九大智能应用。因此,AI中台囊括了NLP、CV、多模态等多种能力,其中视听场景的多模态分类识别作为其中的重要能力之一,是针对视频进行特定的场景分类识别。例如,在媒资管理场景,通过音视频多模态信息构建AI算法,实现深层理解视频内容,为视频打标签及长视频拆条等。不仅如此,该能力在近日首次举办多模态分类挑战的国际权威声学场景和事件检测及分类赛事(DCASE 2021)中,也达到了接近SOTA的92.1%分类准确率。
图1 视频中的音画模态
更具体地来看,如图1所示,通过对画面——观众及声音——鼓掌两个模态的感知,能够准确地判断这段短视频为观众鼓掌,而非raining on the ground。因此,多模态信息的融合学习是非常必要的。我们构建了一种多模态场景分类系统,设计了一种轻量的音频分类Transformer模型,并创新性的提出一种数据增强的方法——feature dropout,使用特征随机混合的策略训练特征融合分类模型,不仅能够提升分类器的性能&