Temporal Hierarchical Attention at Category- and Item-Level for Micro-Video Click-Through Prediction

论文题目: Temporal Hierarchical Attention at Category- and Item-Level for
Micro-Video Click-Through Prediction
论文链接: link

1 INTRODUCTION
短视频取得了很大的流行,因此迫切需要良好的推荐系统。
传统的方法主要为 基于内容的过滤、协同过滤和混杂的方法。基于内容的的过滤要求根据视频内容计算相关度,然后根据用户历史点击的内容进行推荐。协同过滤学习的用户和物品的交互数据。CBF和CF都用了用户的历史信息。(不同的是CBF主要是对视频多模态内容的研究,CF去除内容主要对交互进行研究,因此CF不能推荐新出现的物品)。混杂的方法则组合了CF和CBF的优点。另外传统的推荐算法假设用户的兴趣的不变的,尽管越来越多的工作开始考虑用户兴趣的变化)。
具体到视频推荐,近些年已经见证了很大的进展,(Deep neural networks for youtube recommendations RecSys 2016、What videos are similar with you?:Learning a common attributed representation for video recommendation MM 2014、A Unified Personalized Video Recommendation via Dynamic Recurrent Neural Networks MM2017、Contextual video recommendation by multimodal relevance and user feedbackTOIS 2011)尽管仍然很难。短视频与传统的线上视频没有多元化的数据(如电影的导演、演员等)。
我们的工作是做短视频推荐,即给一个新的视频预测用户点击的概率。不考虑文本等多元化的信息,只考虑视频的封面(缺点)。同时由于短视频每日巨大的产生量,也就是说新视频没有历史的交互,因此CF一类的算法将不再适用)
近些年来用神经网络特别是RNN来建模用户的行为是一个正在兴起的课题。A Unified Personalized Video Recommendation via Dynamic Recurrent Neural Networks MM 2017、Session-based recommendations with recurrent neural networks ICLR 2016。RNN比马尔可夫链要好,但是对于长链有困难。为了解决这个问题,ATRank: An Attention-Based User Behavior Modeling Framework for Recommendation用self-attention来解决。

2 RELATED WORK
2.1 Video Recommendation
介绍CBF、CF、和混杂三种类型的方法。
介绍短视频
2.2 RNN- and Attention-Based Recommendation
介绍RNN的进展

3 METHODS
由于冷启动问题,我们采取基于内容过滤的方法,也就是根据用户之前看过的视频的内容,根据新到来的视频与其相似性进行推荐。同时与传统的基于内容推荐不同的是,我们考虑时序性,也就是将用户看过的视频看作一个序列。
短视频拥有多模态的数据,在这里我们只考虑其封面和类别
3.1 Item Embedding
此部分的目的是将item映射到一个d维空间
每个视频都有一个视觉特征(从图片提取而来),将其映射到f维;同时每个视频都有一个类别,首先用one-hot编码表示,其次将其映射到c维。然后将两个向量拼接(d维),作为视频的表征
3.2 Temporal Hierarchical Attention
如果用RNN来建模序列,难以捕捉短期与长期依赖的问题。因此我们用时间注意力机制来解决这个问题
首先将序列切割成 m块,每块k个视频。在每一块里,我们使用category level和item level的attention来得到向量l,l来表征第i块的信息(局部信息)。然后我们用multi-head self-attention来探索块之间的联系,得的g(代表着第一个到第i块的全局信息)。然后我们将局部信息与全局信息组合,得到 u,代表着考虑了时序性的第i块的信息。
Category- and item-level attention:在每一个块中有k个视频,且有视觉特征和类别特征两种属性。分别对每一个视频赋予attention score,来得到第I块的信息。
Forward multi-head self-attention:对于每一块的表征l,计算他与其他块的attention,然后mask掉序列后部分对前部分的影响,然后得到新的序列表征g
3.3 Micro-Video Click-Through Prediction
现在我们得到了用户的观看序列表征 u, 然后来一个新的item,经过3.1的item embedding,得到x,然后x与序列u进行attention,u与attention score相乘求和得到新的u,然后将u与x放入两层的mlp,然后softmax,然后logloss函数。

4 EXPERIMENTS
在这里插入图片描述
在这里插入图片描述

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值