多模态短视频内容标签技术及应用，oppo hr面试

最新推荐文章于 2024-07-25 18:53:56 发布

2401_84023579

最新推荐文章于 2024-07-25 18:53:56 发布

阅读量600

点赞数 8

分类专栏： 2024年程序员学习文章标签：音视频面试人工智能

本文链接：https://blog.csdn.net/2401_84023579/article/details/137588665

版权

抽取式另外一个思路是联合学习。因为两步走的方法有一个缺点，就是错误会积累。比如说侯选标签没有提取出来，或者提取错了，那么第二步排序怎么做都做不好。所以有一些研究者把这两个流程结合起来通过联合学习来做标签提取。它的好处是可以避免错误积累，当然学习的难度也会加大。

但抽取式有一个缺点，就是只能抽取在文本中出现的关键词。但是很多的关键词它在文本中并没有出现，特别是具有归纳或者是概括特性的关键词。抽取式在这个时候就无能为力了。

第二类的方法是最近研究方面比较热的生成式。生成式有两个思路，第一个思路是通过seq2seq技术框架来生成标签，就是把文本作为输入，把标签作为输出去做一个端到端的生成。因为不要求生成的签一定在原始文本中，所以说它可以比较好的解决没有在文本中出现的标签的问题。

另外一种思路是使用强化学习来生成标签，比较有代表性的是ACL2019的一篇文章，它是为了解决内容标签召回的问题，目的是为了提高召回，在使用强化学习的时候，当召回低于Ground-Truth时，使用Recall作为Reward，召回高于Ground-Truth时，使用F1 score作为Reward，这样可以对召回和精度做一个平衡。训练框架使用的是基于self-critical的策略梯度方法。

****多模态短视频内容标签的难点 ：

接下来介绍一下在短视频场景下这种内容形式上的内容标签抽取方法。短视频目前已经成为了一种主流的媒介形态，如何提升短视频的分发效率，是各大短视频平台面临的重要课题。内容标签作为短视频内容理解的重要手段，在爱奇艺得到了广泛的应用。

先看一下短视频内容标签有什么样的难点：

第一，内容标签集合是一个开放集合，根据我们的统计它的数量有好几百万，所以不能使用分配的方法(如分类)，来生成标签。

第二，短视频内容标签的标准很难统一，我们曾经做过统计，两个人给同一批短视频标注内容标签，标注完全一致率只有22.1%。所以对于一个短视频哪些词可以作为内容标签，并没有统一的标准。

第三,抽象标签占比较高，抽象标签学术上叫absence标签。就是这个标签它没有在标题中出现，经过统计在短视频中抽象标签占比高于40%。同时，标题因为长度也比较短，特别是短视频标题，很多情况下它并不是一个完全的句子，而是一些关键词的拼接，在信息比较少又不规范的情况下，语义理解起来也就更加困难。

第四，融合多模态， 包括封面图和视频内容，比如，在一个短视频的标题为“男子开车堵在女子家门口，女子不费吹灰之力，连人带车一块弄走”，看不出这个视频是什么含义，但这个视频内容描述的是关于明星张歆艺的相关的内容，所以这类内容需要结合多模态的信息才能准确抽取出准确的内容标签。

模型的迭代之路