本发明涉及一种基于强化学习框架的推荐系统离线训练方法,是针对推荐系统中用户兴趣动态捕捉以及最大化系统长期收益的方法,属于工程应用和信息科学的交叉学科。
背景技术:
随着移动互联网和各种智能设备的快速普及,人们进入了一个信息爆炸的时代。相较于过去信息匮乏的年代,现如今,人们面对各大电商网站上充斥着琳琅满目的商品亦或是视频播放网站上成千上万的电影,反而更加难以抉择。因为可供选择的方案太多,人们往往难以快速找到自己感兴趣的物品,浪费了不必要的时间和精力。为了解决上述信息过载问题,智能化、个性化的推荐系统应运而生。
推荐系统根据用户的兴趣偏好、商品的特征、用户与商品的历史交互过程以及一些附加信息(如时空数据)等,为用户推荐商品。推荐系统一般可以分为(1) 基于内容的推荐系统;(2)基于协同过滤的推荐系统;(3)混合推荐系统。针对推荐系统,国内外学者展开了大量的研究,现在主流方法包括使用矩阵分解学习用户和商品的特征表示,使用RNN等神经网络对用户历史行为进行建模等等。
但是这些方法大多存在如下两点缺陷,(1)大多数传统推荐系统,将推荐过程看作是一个静态的过程,一旦模型训练完成,就不会改变。这种做法忽视了用户兴趣的动态变化。现实生活中,用户的兴趣不仅会随着时间变化,还会受到所推荐内容的影响;2)传统推荐系统只考虑当前利益最大化,而忽视了长期回报。
针对上述的问题,本发明提出一种基于强化学习框架的推荐系统离线训练方法。该方法将推荐系统与用户的交互过程看作是一个动态建模的过程,不仅可以有效地捕捉用户兴趣的动态变化,还可以最大化系统的长期回报并有效地减少计算的复杂度,提高了推荐系统的效率。
技术实现要素:
发明目的:本发明的目的是提供一种基于强化学习框架的推荐系统离线训练方法。(1)通过整合矩阵分解和强化学习,对用户对兴趣进行动态捕捉和建模; (2)通过降低计算复杂度以及采用离线训练的方式,使得本发明可适用于大规模的基于评分的推荐系统。
技术方案:为实现上述目的,本发明使用离线训练的方式,首先通过矩阵分解,得到用户和商品的隐向量表示,并实时捕捉用户兴趣的动态变化&