《Semantic User Behaviour Prediction in Online News》的理解
这篇文章是我们团队做线上新闻推荐的主要参考文献之一,因为NTNU发布了Adressa数据集,在新闻推荐领域也算是比较前沿的了,所以对这篇文章,我们也针对性的做了了解和探讨。从标题来看,这篇文章主要是从语义角度分析用户行为并作出预测,虽然说是语义角度但实际上也就是对主题模型做了探讨和实现,并且该模型来降低数据稀疏性(毕竟用户对应文档和用户对应主题,这对应关系的数量还是有明显区别的),并且通过聚类方式来将用户和多个主题做映射关系,每个文档的最终评分与文档与主题的关系和用户与主题的关系共同得到。
新闻推荐领域是一个非常特殊的推荐领域,与电影推荐或者电商推荐所不同的是,新闻有一个非常特殊的属性——时效性,这就意味着新闻物料会有频繁的上下架操作,导致系统内的物料频繁变化,就有点像系统一直面临物品冷启动的问题。理论一点,新闻推荐存在数据稀疏性问题,这个问题包括两个方面:
- 用户与物品交互太少
- 物品的更迭频率太快
这是新闻推荐领域所面对的主要两个挑战。而本文所介绍的论文就是专注于解决这两个问题。论文提供了一种方法,通过对新上架文档的主题化、降维表示形式建模来处理这些挑战。从基于内容语义生成文本主题,并进一步通过文档主题匹配(新上架新闻和主题匹配&#x