技术干货 | 腾讯云智媒体AI中台中的视听场景多模态分类识别

作者:yujie yanan腾讯云智媒体AI中台是为传媒行业量身打造的解决方案,旨在提供智能化、全流程、一站式的AI中台及开箱即用的智能编目、智能拆条等九大智能应用。因此,AI中台囊括了NLP、CV、多模态等多种能力,其中视听场景的多模态分类识别作为其中的重要能力之一,是针对视频进行特定的场景分类识别。例如,在媒资管理场景,通过音视频多模态信息构建AI算法,实现深层理解视频内容,为视频打标签及长视频拆条等。不仅如此,该能力在近日首次举办多模态分类挑战的国际权威声学场景和事件检测及分类赛事(DCASE
摘要由CSDN通过智能技术生成

作者:yujie yanan

preview

腾讯云智媒体AI中台是为传媒行业量身打造的解决方案,旨在提供智能化、全流程、一站式的AI中台及开箱即用的智能编目、智能拆条等九大智能应用。因此,AI中台囊括了NLP、CV、多模态等多种能力,其中视听场景的多模态分类识别作为其中的重要能力之一,是针对视频进行特定的场景分类识别。例如,在媒资管理场景,通过音视频多模态信息构建AI算法,实现深层理解视频内容,为视频打标签及长视频拆条等。不仅如此,该能力在近日首次举办多模态分类挑战的国际权威声学场景和事件检测及分类赛事(DCASE 2021)中,也达到了接近SOTA的92.1%分类准确率。

图1 视频中的音画模态

更具体地来看,如图1所示,通过对画面——观众及声音——鼓掌两个模态的感知,能够准确地判断这段短视频为观众鼓掌,而非raining on the ground。因此,多模态信息的融合学习是非常必要的。我们构建了一种多模态场景分类系统,设计了一种轻量的音频分类Transformer模型,并创新性的提出一种数据增强的方法——feature dropout,使用特征随机混合的策略训练特征融合分类模型,不仅能够提升分类器的性能&

  • 3
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值