近年来,机器学习在搜索、广告、推荐等领域取得了非常突出的成果,成为最引人注目的技术热点之一。微博也在机器学习方面做了广泛的探索,其中在推荐领域,将机器学习技术应用于微博最主要的产品之一——热门微博,并取得了显著的效果提升。
热门微博推荐系统介绍
热门微博业务场景
热门微博是基于微博原生内容的个性化兴趣阅读产品。提供最新最热优质内容阅读服务,更好地保障用户阅读效率和质量,同时达到激励微博上内容作者更好的创作和推广内容。
热门微博的推荐系统主要面临以下两点挑战。
- 大规模:需要处理微博上的海量用户和海量内容;
- 时效性:微博内容的生产周期短,变化较快。
热门微博推荐系统算法流程
我们定制了一套完善的推荐系统框架,包括基于机器学习的多路召回与排序策略,以及从海量大数据的离线计算到高并发在线服务的推荐引擎。推荐系统主要分为三层,基础层、推荐(召回)和排序三个部分,推荐(召回)主要负责生成推荐的候选集,排序负责将多个算法策略的结果进行个性化排序。
整体的推荐技术框架如图1。
图1
基础层:分为内容建模和用户建模两部分。内容建模主要是微博内容的语义识别,包括主题模型、实体词识别、文本分类和图片分类。用户建模对用户建立完整的画像,包括用户自然属性(性别/年龄)、用户兴趣、用户聚类和用户之间的关系(亲密度等)。
推荐层:我们通过用户行为、微博内容等进行实时判断,通过多个召回算法获取不同候选集。再对召回的候选集进行融合。具体的召回算法如下:
- User-based协同推荐:找出与当前User X最相似的N个User,并根据N个User对某Item的打分估计X对该Item的打分。
- Item-based协同推荐:我们计算不同mid的共现概率,取出满足一定阈值且排在top的mid作为协同mid的候选。