多模态短视频内容标签技术及应用

最新推荐文章于 2024-07-11 03:29:05 发布

2401_84003839

最新推荐文章于 2024-07-11 03:29:05 发布

阅读量625

点赞数 15

分类专栏：程序员文章标签：人工智能大数据

本文链接：https://blog.csdn.net/2401_84003839/article/details/138404850

版权

程序员专栏收录该内容

203 篇文章 0 订阅

订阅专栏

文章探讨了多模态短视频内容标签的生成难点，涉及模型的迭代过程，从抽取式到生成式方法，以及内容标签在个性化推荐、搜索和聚类中的应用。重点介绍了抽取式方法（如TF-IDF和TextRank）和生成式方法（如Transformer）的优缺点，以及如何融合封面图以提升理解准确性。

摘要由CSDN通过智能技术生成

三、多模态短视频内容标签的难点

四、模型的迭代之路

五、内容标签的主要应用场景

什么是内容标签：

提到标签，推荐系统里面使用比较广泛的是内容标签和类型标签，其中内容标签是对文本、图文或者短视频等内容的表征（表征，就是用一些关键词或者是短语来表达对应的内容是什么含义）。内容标签是根据内容来生成的标签，也就是说有什么样的内容它就会有什么样的标签，标签的集合是开放的。然而类型标签是一个分类体系，就是把不同的内容分到不同的体系下面，这个分类体系是预先定义好的，这就是内容标签和类型标签两者的区别。\

本质上内容标签和另一个我们经常使用的关键词抽取技术非常类似。但不同的是我们做内容标签的一个重要出发点是为了推荐系统来对各种内容生成标签。它更突出了推荐的应用场景，虽然内容标签的应用也不仅限于在推荐场景下，可以针对任何基于内容理解的场景内容，因为内容是一个广泛的含义，包括文本、图文、短视频等等。而关键词抽取，主要针对的是文本，它是从文本里面把跟该文本意义最相关的一些词语抽取出来，在文献检索、自动文摘、文本聚类/分类等方面有着重要的应用。

内容标签有什么作用？举三个典型的应用场景，让大家对内容标签有一个比较直观的印象：

第一，个性化推荐，通过对内容进行标签提取，结合用户的兴趣TAG，对用户进行精准的个性化推荐，是内容标签在个性化推荐上面的一个典型的应用。

第二，搜索，通过内容的关键词或者内容标签，跟用户输入的关键词做精准匹配，返回更精确的搜索结果。

第三，聚类&分类，使用内容标签作为文本特征，来提升聚类或分类的效果。

提取内容标签的方法：

提取内容标签的方法在这里我总结了两大类方法：\

第一类是抽取式，本质是从文本中抽取关键词或者短语；

第二类是生成式，通过生成的方式，来生成关键词和短语。

这是两条不同的技术路线。

先看抽取式，抽取式主流的方法第一步是做侯选词的提取，第二步对侯选词做排序，然后把得分高的选出来作为关键词。又可以分为有监督和无监督的方法，当然也可以把监督和无监督相结合起来：

其中有监督的方法：是先提取侯选词，提取的方法可以结合一些无监督的方法。比如说通过词频序列标注提取一些侯选的关键词。然后做一个分类或者排序，来选出得分高的候选词作为关键词。

第二个是无监督的方法，无监督方法使用比较广泛的是基于词频的方法和基于图的方法。基于词频最常用的方法是TF-DF，它是最简单也是使用比较广泛的一种关键词提取方法；基于图的方法最常用的是TextRank方法，它是从PageRank算法发展而来，它的思想是以文本中的词为节点，以词的相邻关系为边构建词图，然后使用PageRank算法进行迭代来计算每个节点的rank值，选取rank值较高的词作为关键词。TextRank后续发展的模型有：ExpandRank、CiteTextRank、PositionRank等。

抽取式另外一个思路是联合学习。因为两步走的方法有一个缺点，就是错误会积累。比如说侯选标签没有提取出来，或者提取错了，那么第二步排序怎么做都做不好。所以有一些研究者把这两个流程结合起来通过联合学习来做标签提取。它的好处是可以避免错误积累，当然学习的难度也会加大。

但抽取式有一个缺点，就是只能抽取在文本中出现的关键词。但是很多的关键词它在文本中并没有出现，特别是具有归纳或者是概括特性的关键词。抽取式在这个时候就无能为力了。

第二类的方法是最近研究方面比较热的生成式。生成式有两个思路，第一个思路是通过seq2seq技术框架来生成标签，就是把文本作为输入，把标签作为输出去做一个端到端的生成。因为不要求生成的签一定在原始文本中，所以说它可以比较好的解决没有在文本中出现的标签的问题。

另外一种思路是使用强化学习来生成标签，比较有代表性的是ACL2019的一篇文章，它是为了解决内容标签召回的问题，目的是为了提高召回，在使用强化学习的时候，当召回低于Ground-Truth时，使用Recall作为Reward，召回高于Ground-Truth时，使用F1 score作为Reward，这样可以对召回和精度做一个平衡。训练框架使用的是基于self-critical的策略梯度方法。

****多模态短视频内容标签的难点 ：

接下来介绍一下在短视频场景下这种内容形式上的内容标签抽取方法。短视频目前已经成为了一种主流的媒介形态，如何提升短视频的分发效率，是各大短视频平台面临的重要课题。内容标签作为短视频内容理解的重要手段，在爱奇艺得到了广泛的应用。

先看一下短视频内容标签有什么样的难点：

第一，内容标签集合是一个开放集合，根据我们的统计它的数量有好几百万，所以不能使用分配的方法(如分类)，来生成标签。

第二，短视频内容标签的标准很难统一，我们曾经做过统计，两个人给同一批短视频标注内容标签，标注完全一致率只有22.1%。所以对于一个短视频哪些词可以作为内容标签，并没有统一的标准。

第三,抽象标签占比较高，抽象标签学术上叫absence标签。就是这个标签它没有在标题中出现，经过统计在短视频中抽象标签占比高于40%。同时，标题因为长度也比较短，特别是短视频标题，很多情况下它并不是一个完全的句子，而是一些关键词的拼接，在信息比较少又不规范的情况下，语义理解起来也就更加困难。

第四，融合多模态， 包括封面图和视频内容，比如，在一个短视频的标题为“男子开车堵在女子家门口，女子不费吹灰之力，连人带车一块弄走”，看不出这个视频是什么含义，但这个视频内容描述的是关于明星张歆艺的相关的内容，所以这类内容需要结合多模态的信息才能准确抽取出准确的内容标签。

模型的迭代之路

（一）、文本模型：

首先我们来看看文本模型，从词权重+阈值——CRF模型——注意力模型——Transformer模型，文本模型经过了一系列的算法迭代，具体如下：

· 词权重+阈值： 这个是最初始的版本，词权重结合阙值来抽取标签。但是首先阈值很难划定，因不同的词在不同的句子中它的得分是不一样的，虽然它能把一些重要的词抽取出来，但是总体的精度和召回都比较低。同时，内容标签有时候可能是抽象标签，也可能是一个短语，或者是多个词，用这种方法是解决不了的。

· CRF模型： CRF在序列标注任务中是一个经典的模型，但是它有个特点，第一它只能抽取标题中出现的词或短语，同时需要人工来设定特征模板，还有一个问题就是它主要使用当前词的周围词的特征，如果这个词的特征词距离比较远的话，效果就比较差。

· 注意力模型： 也是抽取式的模型，通过人工定义一些抽象标签作为候选标签，然后使用注意力模型来进行排序，所以它可以抽取出一部分抽象标签。同时能比较好的使用全局的特征。

· Transformer模型： 典型的生成式的模型，它是有比较好的语义概括的归纳能力，在抽象标签的效果也不错。

Transformer把抽取任务转化成生成任务，同时具有语义概括的能力，并且也可以对一些别名进行归一化。总体来说，它的效果要比抽取式好很多。

文本模型因为仅仅使用文本内容，会造成信息的缺失。比如，从标题里面并不能任何有价值的信息，但是从封面图可以看出具体短视频内容。所以如果仅仅使用文本标题，模型效果会有很大的瓶颈，我们使用封面图来解决文本信息语义缺失的问题。

（二）、文本+封面图模型：

要想把封面图加入模型，首先面临的第一个问题就是怎么把封面图向量化，其中会用到迁移学习，迁移学习目前在业界是应用比较广泛的一种技术，它使用大规模数据预训练好的模型在新的任务新的数据上进行Fine-Tuning，从而加快模型学习效率，使模型能较快的达到一个比较好的效果。我们的做法是使用ImageNet预训练好的模型，在我们的数据集上用这个模型去初始化一个图像分类的任务，分类的标签是图像对应标题的高频抽象标签。预训练模型我们比较了ResNet、Inceptionv3、Xception等模型，最终我们使用Xception来初始化我们的图像分类模型，然后抽取出倒数第2层2048维向量作为图像的表征。

图象和模型融合的方式有三种：第一种方式是把图象向量作为一个token拼接到文本输入里面，一般的做法是拼接到文本向量的首尾。第二种融合的方式是设置图象向量作为Encoder隐藏层初始化向量，因为隐藏层的参数初始化有两种方式，第一种方式是初始化为0；，第二种是随机初始化，这儿使用图像向量作为隐藏层的初始化向量。第三种方式是将图像向量和Encoder输出向量融合，然后作为Decoder的初始向量。

我们图像融合方式是这样：把封面图通过Xception之后生成的图象向量，同时在三个地方去做做融合：Encoder输入端的首尾、Encoder输出端的首尾以及作为Decoder的初始向量。