一、概述
名称:Multi-View Active Learning for Video Recommendation
作者:Jia-Jia Cai , Jun Tang , Qing-Guo Chen , Yao Hu , Xiaobo Wang and Sheng-Jun Huang
文献类型:IJCAI19
年份:2019年
整理日期:2020年5月14日
二、主要解决问题
视频推荐通常是利用文本信息对视频进行标注然后来进行推荐,但是很多用户上传视频后可能不会添加文本注释,所以需要从视频本身的视觉信息中提取到有用的信息。
=>从没有文本注释的视频集中通过V2T的方法选择出信息量最大的视频加入到训练集(同时拥有文本信息和视觉信息的视频集)中训练出更好的模型。
=>提出了一种视频推荐的多视图主动学习框架V2T,主动查询所选视频缺失的视图(如视频缺少文本注释,则利用视觉信息去获得相关的文本信息)。
=>提出了一种有效地降低标注代价的MVAL算法,一方面充分利用了具有监督信息的视觉效果,另一方面结合了预测不一致与频率的关系,选择出信息量最大的视频。
三、解决思路
- R = { ( v i , u j , y i j ) } i = 1... n , j = 1... m R=\{(\mathbf{v}_i, \mathbf{u}_j, y_{ij})\}_{i=1...n, j = 1...m} R={
(vi,uj,yij)}i=1...n,j=1...m是用户行为记录的集合, v i \mathbf{v}_i vi是第i个视频, u j \mathbf{u}_j uj是第j个用户, y i j = 1 y_{ij}=1 yij=1表示该用户看了这个视频,否则 y i j = 0 y_{ij}=0 yij=0。
v i V \mathbf{v}_i^V viV表示第i个视频的视觉特征向量, v i T \mathbf{v}_i^T viT表示第i个视频的文本特征向量(这个信息是需要用户手动标注的,大部分视频是缺失的。)。
假设一个小的标注过的视频集合A(视觉信息和文本信息都有),一个大的未标注过的视频集合U(只有视觉信息),定义 R A R^A RA是用户对A的行为记录, R U R^U RU是用户对U的行为记录。
常规操作是在A上训练得到一个预测函数f(文本特征信息空间映射到用户行为标签空间)去进行推荐,但是A数量很少不能有很好的效果,所以在U中选择性挑选一些视频去查询到它们相关的文本信息添加到训练集中,这是本文需要解决的核心问题。
=>提出visual to test(V2T) mapping从视觉信息中探索对应的文本信息,然后提出一个active learning criterion来选择信息量最大的视频来作为训练数据。
1、Visual to Text Mapping
我们学习V2T mapping函数e来连接文本和视觉信息,函数的输出可以用来估计未标注过的视频的信息量。
- 一个学习e的直接方法是最小化文本特征和变换后特征的重建误差。A是一个同时拥有视觉和文本信息的训练集,那么目标函数(transformation loss)可以为:
m i n e ∑ v i ∈ A l 1 ( v i T , e ( v i V ) ) min_e \sum_{\mathbf{v}_i \in A} l_1(\mathbf{v}^T_i, e(\mathbf{v}^V_i)) minevi∈A∑l1(viT,e(viV))
其中, l 1 l_1 l1是用来计算重建误差的损失函数。
但是A的数据量很小,所以训练得到的模型可能不够好,我们考虑使用video-user信息对中的分类信息(即用户是否观看了视频)将问题转变为有监督的训练e。 - V2T就是将视觉信息转换为文本信息: v ^ T = e ( v i T ) \hat{\mathbf{v}}^T = e(\mathbf{v}^T_i) v^T