让AI“读懂”短视频，爱奇艺内容标签技术解析

爱奇艺技术产品团队

于 2020-02-14 19:00:00 发布

阅读量3.7k

点赞数 2

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_38753262/article/details/104322450

版权

前言

随着短视频的兴起，每天有大量的短视频被生产并上传到各大视频平台，面对海量的短视频，如何提升这些短视频的智能分发效率是各大短视频平台面临的重要课题。

视频的标签技术是内容理解的一种重要手段，已经在业界被广泛应用于推荐系统的各个环节：用户画像、召回、排序等。标签一般分为“类型标签”和“内容标签”两大类别，类型标签是对短视频内容进行层次分类，分类体系是预先定义好的；而内容标签是根据不同的短视频内容生成的不同的关键词或短语，用来表征短视频的内容，它是一个开放的集合。本文将详细介绍爱奇艺在短视频场景中内容标签技术。

内容标签技术难点

短视频一般由短视频文本标题、封面图、视频内容等元素组成，要想较准确的抽取出内容标签，需要综合利用这些多模态信息。如何将这些不同模态的信息融合起来应用于模型中并取得较好的结果是需要较多的探索；又因为内容标签是一个开放集合，如何判断哪些词语可以作为内容标签也是比较困难的。在实际人工标注过程中发现，两个人同时标注同一批数据，标注的完全一致率只有22.1%，以下是一些标注例子：

最后，大量的内容标签并没有在文本标题中出现，我们称这种标签为“抽象标签”，如短视频标题：“母亲染病雪上加霜，女儿自强渴望工作”，其内容标签为：“励志”、“正能量”。根据我们的统计，有40%以上的标签为抽象标签。

内容标签算法迭代之路

爱奇艺的内容标签模型的演变经过了文本模型、融合封面图模型、融合BERT向量模型和进一步融合视频帧模型四个阶段之后，形成了最终的解决方案。下面分别对这四个阶段进行介绍：

（一）

文本模型

文本模型仅仅使用短视频标题等文本信息生成标签。最初使用的是候选生成+排序算法框架，候选标签主要由以下部分组成：

· 通过CRF模型提取的候选标签；

· 通过联想得到的候选标签，联想规则由人工定义，主要包括：

· 同义词、别名联想。如：kof->拳皇, 魔都->上海, 颖宝->赵丽颖；

· 实体联想。如：康熙来了->蔡康永/小s, 露娜->王者荣耀, 章泽天->刘强东；

· 上位概念的联想。如：alphago->围棋, 侧翻->车祸/事故, 戚风→甜品。

· 没有在文中出现的高频标签，通常为准类型标签, 如”街头采访/观看反应/励志”等。

排序模型使用基于注意力机制的语义相似度模型[1] [2] [3]，通过注意力机制生成短视频标题的向量表示，然后和候选标签向量做语义相似度计算，再通过划定阈值选取合适的标签。模型架构如下：

该模型结构简单，在对文章的建模上有比较好的效果。但在短视频标题上却有如下缺点：一是这一模型在抽象类的标签上的效果不是很好，通过人工定义的联想规则只能生成一小部分抽象标签；二是由于标题一般都比较短，注意力模型结构过于简单，无法进行准确的语义建模。

最低0.47元/天解锁文章

评论 2

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。