基于Elastic Search的推荐系统“召回”策略

本文探讨了推荐系统中的“召回”策略,包括离线召回(协同过滤、聚类)和在线召回(基于搜索)。重点介绍了Elastic Search作为在线召回工具,结合TF-IDF算法抽取用户历史记录中的关键词,实现个性化推荐。利用Elastic Search的全文搜索能力,系统能高效召回与用户兴趣相关的内容,尤其适合长尾物料的召回和物品冷启动。
摘要由CSDN通过智能技术生成

当我们打开一个资讯APP刷新闻时,有没有想过,系统是如何迅速推送给我们想看的内容?资讯APP背后有一个巨大的内容池,系统是如何判断要不要将某条资讯推送给我们的呢?这就是今天想跟大家探讨的问题——推荐系统中的“召回”策略。

  1. 推荐系统中的召回

召回策略主要满足的是能够从海量的数据中召回一部分相关的候选集,在实现方法上也有很多种,主要可以分为离线召回和在线召回。离线召回的方法主要有协同过滤、聚类算法。协同过滤可以分为基于用户的协同过滤和基于物品的协同过滤。在线召回主要是基于搜索的方式,从该用户的历史记录中利用不同的算法抽取相关信息,这里的相关信息可以是物品的基本信息,也可以是离线标注的标签,然后将这些抽取到的关键信息从索引中快速的查询出相关的结果集。

  1. Elastic Search与TF-IDF

Elastic Search是基于Apache Lucene™的一个开源搜索引擎,是一个分布式且具有高扩展性的全文检索的搜索引擎,而且还提供了近乎实时的索引、分析、搜索功能。 Lucene是现今搜索领域被认为速度最快、性能最稳定、功能最全的搜索引擎库,而Elastic Search是以Lucene为核心进行二次开发的搜索引擎,主要完成索引和搜索的功能,它可以通过简单的接口隐藏Lucene的复杂性,从而让整个搜索引擎变得更方便。

在基于内容推荐的算法中,关键词的提取是至关重要的一环,关键词提取直接影响了物品相似度计算的效果。假如没有关键词提取的话,物品全部信息作为特征维度会造成维度灾难,使得维度巨大,且构造的矩阵会相当稀疏,不利于计算。在关键词提取的过程中,TF-IDF算法是很有效率的一种算法。关于TF-IDF算法我们不再这里展开详述。

  1. Elastic Sear
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值