KDD 2020（五） | 基于多源异构信息整合的视频标题生成模型（作者带你读论文）...

AITIME论道

于 2020-08-29 17:01:15 发布

阅读量869

点赞数

文章标签： python 机器学习人工智能编程语言大数据

本文链接：https://blog.csdn.net/AITIME_HY/article/details/108301967

版权

文章介绍了KDD 2020论文《基于多源异构信息整合的视频标题生成模型》。研究针对电子商务中买家秀视频缺少合适标题的问题，提出了一种名为Gavotte的新框架，它通过细粒度交互和故事线摘要建模，整合视频、评论和商品属性信息，生成有吸引力的视频标题。模型在淘宝数据集上取得显著效果，能识别商品细节、整体外观、商品-背景交互和视频故事情节。

摘要由CSDN通过智能技术生成

⬆⬆⬆ 点击蓝字

关注我们

AI TIME欢迎每一位AI爱好者的加入！

论文：Comprehensive Information Integration Modeling Framework for Video Titling

作者：Shengyu Zhang, Ziqi Tan, Jin Yu, Zhou Zhao, Kun Kuang, Tan Jiang, Jingren Zhou, Hongxia Yang, Fei Wu

会议：In The 26th ACM SIGKDD Conference on Knowledge Discovery and Data Mining (KK’20).

1. 引言

电子商务领域的视频推荐对于获取新客户有着重要作用。例如，许多消费者会在商品评论区上传视频已分享他们独特的购物体验，这些独特的商品呈现方式或独特的商品使用方法可能会吸引潜在买家购买相同或类似的产品。相比于卖家秀视频（如广告），买家秀视频具有数量大和个性化强的优势，因此，将买家秀视频推荐给潜在感兴趣的消费者可以增强电子商务场景下视频推荐的有效性。下图展示了买家秀视频推荐的两个实际应用场景。

买家秀视频在视频推荐过程缺少高质的视频标题。通常，视频推荐会给视频配上一个精炼的标题，该标题可以让目标用户在观看视频前对视频主要亮点、特色有一个初步把握，从而产生观看兴趣。虽然在消费者在商品评论区上传视频的过程中也会写有描述性的评论，但我们分析发现，这些评论经常会强调物流、客服和亲友评价等与商品本身外观和使用方法不相关的购物体验，不适宜作为推荐场景下的视频标题。

在这种应用需求下，我们设计了买家秀视频标题自动生成模型，并从以下数据中抽取、关联和聚合有用的信息：1）买家秀视频本身。视频以动态图像的形式展现了买家偏好的商品视觉特征以及拍摄主题；2）买家撰写的评论。虽然评论有较多的噪声信息，不能直接作为视频标题呈现，但是其内容可能蕴含了买家对产品特点的偏好以及使用体验。3）关联商品的属性信息。来自商品评论区的买家秀视频会与一个特定的商品关联，我们提取了关联商品的属性信息，如中长款（连衣裙），作为输入。属性结构化的展现了商品的主要特点。下图展示了一个实际的数据样例。

目前和该任务设定接近的研究工作是视频描述生成任务（Video Captioning）。在任务本身上，一般性的视频描述生成数据集中的描述通常会只涵盖主要物体检测（Object Detection）和一般性的活动识别（Activity Recognition），如 "A man is playing basketball"，而买家秀视频标题生成任务的描述涉及商品细节特点识别、商品整体外观识别、商品和背景交互作用的识别（如 "夏日海滩风情度假必备连衣裙"）和视频故事线主题识别（如 "这样穿显瘦美丽"）。因此在任务本身上，买家秀视频标题生成提出了更多和实际应用紧密相关的挑战；在现有模型层面，大部分视频描述模型将该任务看作序列到序列建模任务，典型的是采用带有或不带有注意力机制（Attention）的循环神经网络（RNN）同时建模视频帧序列和输出的词序列。然而，这样的建模方式具有局限性，其一，他们只在视频帧级别建模了视频信息，这不利于商品部位及商品整体级别的特点识别，基于序列建模的RNN模型本身也较难建模具有特殊依赖关系的商品不同部位；其二，序列建模的RNN模型无法系统和有效的关联和聚合三种异构信息&