基于LUCENE实现自己的推荐引擎(转)

最新推荐文章于 2021-01-27 17:30:52 发布

海天

最新推荐文章于 2021-01-27 17:30:52 发布

阅读量919

点赞数

分类专栏：搜索与挖掘文章标签： lucene 引擎数据挖掘算法 hibernate 电子商务

搜索与挖掘专栏收录该内容

3 篇文章 0 订阅

订阅专栏

来源http://www.yeeach.com

1、常用推荐引擎算法问题

1）、相对成熟、完整、现成的开源解决方案较少

粗略分来，目前与数据挖掘及推荐引擎相关的开源项目主要有如下几类：

数据挖掘相关：主要包括Weka、R-Project、Knime、RapidMiner、Orange 等

文本挖掘相关：主要包括OpenNLP、LingPipe、FreeLing、GATE 等，具体可以参考LingPipe’s Competition

推荐引擎相关：主要包括Apache Mahout、Duine framework、Singular Value Decomposition (SVD) ，其他包可以参考Open Source Collaborative Filtering Written in Java

搜索引擎相关：Lucene、Solr、Sphinx、Hibernate Search等

2）、常用推荐引擎算法相对复杂，入门门槛较低

3）、常用推荐引擎算法性能较低，并不适合海量数据挖掘

以上这些包或算法，除了Lucene/Sor相对成熟外，大部分都还处于学术研究使用，并不能直接应用于互联网大规模的数据挖掘及推荐引擎引擎使用。

2、采用Lucene实现推荐引擎的优势

对很多众多的中小型网站而言，由于开发能力有限，如果有能够集成了搜索、推荐一体化的解决方案，这样的方案肯定大受欢迎。采用Lucene来实现推荐引擎具有如下优势：

1）、Lucene 入门门槛较低，大部分网站的站内搜索都采用了Lucene

2）、相对于协同过滤算法，Lucene性能较高

3）、Lucene对Text Mining、相似度计算等相关算法有很多现成方案

在开源的项目中，Mahout或者Duine Framework用于推荐引擎是相对完整的方案，尤其是Mahout 核心利用了Lucene，因此其架构很值得借鉴。只不过Mahout目前功能还不是很完整，直接用其实现电子商务网站的推荐引擎尚不是很成熟。只不过从Mahout实现可以看出采用Lucene实现推荐引擎是一种可行方案。

3、采用Lucene实现推荐引擎需要解决的核心问题

Lucene擅长Text Mining较为擅长，Lucene在contrib包中提供了MoreLikeThis功能，可以较为容易实现Content-Based的推荐，但对于涉及用户协同过滤行为的结果（所谓的Relevance Feedback），Lucene目前并没有好的解决方案。需要在Lucene中内容相似算法中加入用户协同过滤行为对因素，将用户协同过滤行为结果转化为Lucene所支持的模型。

4、推荐引擎的数据源

电子商务网站与推荐引擎相关典型的行为：

购买本商品的顾客还买过
浏览本商品的顾客还看过
浏览更多类似商品
喜欢此商品的人还喜欢
用户对此商品的平均打分

因此基于Lucene实现推荐引擎主要要处理如下两大类的数据

1）、内容相似度

例如：商品名称、作者/译者/制造商、商品类别、简介、评论、用户标签、系统标签

2）、用户协同行为相似度

例如：打标签、购买商品、点击流、搜索、推荐、收藏、打分、写评论、问答、页面停留时间、所在群组等等

5、实现方案

5.1、内容相似度

基于Lucene MoreLikeThis实现即可。

5.1、对用户协同行为的处理

1）、用户每一次协同行为都使用lucene来进行索引，每次行为一条记录

2）、索引记录中包含如下重要信息：

商品名、商品id、商品类别、商品简介、标签等重要特征值、用户关联行为的其他商品的特征元素、商品缩略图地址、协同行为类型（购买、点击、收藏、评分等）、Boost值（各协同行为在setBoost时候的权重值）

3）、对评分、收藏、点击等协同行为以商品特征值（标签、标题、概要信息）来表征

4）、不同的协同行为类型（例如购买、评分、点击）设置不同的值setBoost

5）、搜索时候采用Lucene MoreLikeThis算法，将用户协同转化为内容相似度

以上方案只是基于Lucene来实现推荐引擎最为简单的实现方案，方案的准确度及细化方案以后再细说。

更为精细的实现，可以参考Mahout的算法实现来优化。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
基于LUCENE实现自己的推荐引擎(转)

<br />来源http://www.yeeach.com1、常用推荐引擎算法问题<br />1）、相对成熟、完整、现成的开源解决方案较少<br />粗略分来，目前与数据挖掘及推荐引擎相关的开源项目主要有如下几类：<br />数据挖掘相关：主要包括Weka、R-Project、Knime、RapidMiner、Orange 等<br />文本挖掘相关：主要包括OpenNLP、LingPipe、FreeLing、GATE 等，具体可以参考LingPipe’s Competition<br />推荐引擎相关：主
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。