基于lucene实现自己的推荐引擎

最新推荐文章于 2021-07-28 23:55:51 发布

ajian005

最新推荐文章于 2021-07-28 23:55:51 发布

阅读量675

点赞数

分类专栏： 1.1.1.17 索引和搜索文章标签： lucene 引擎算法数据挖掘电子商务 hibernate

1.1.1.17 索引和搜索专栏收录该内容

7 篇文章 0 订阅

订阅专栏

采用基于数据挖掘的算法来实现推荐引擎是各大电子商务网站、SNS社区最为常用的方法，推荐引擎常用的Content-Based推荐算法及协同过滤算法（Item-Based 、User-based）在电子商务推荐系统入门v2.0、电子商务推荐系统入门基础中已经有所阐述。但从实际应用来看，对于大部分中小型企业来说，要在电子商务系统完整采用以上算法有很大的难度。

1、常用推荐引擎算法问题

1）、相对成熟、完整、现成的开源解决方案较少

粗略分来，目前与数据挖掘及推荐引擎相关的开源项目主要有如下几类：

数据挖掘相关：主要包括Weka、R-Project、Knime、RapidMiner、Orange 等

文本挖掘相关：主要包括OpenNLP、LingPipe、FreeLing、GATE 、Carrot2 等，具体可以参考LingPipe’s Competition

推荐引擎相关：主要包括Apache Mahout、Duine framework、Singular Value Decomposition (SVD) ，其他包可以参考Open Source Collaborative Filtering Written in Java

搜索引擎相关：Lucene、Solr、Sphinx、Hibernate Search等

2）、常用推荐引擎算法相对复杂，入门门槛较低

3）、常用推荐引擎算法性能较低，并不适合海量数据挖掘

以上这些包或算法，除了Lucene/Solr相对成熟外，大部分都还处于学术研究使用，并不能直接应用于互联网大规模的数据挖掘及推荐引擎引擎使用。

2、采用Lucene实现推荐引擎的优势

对很多众多的中小型网站而言，由于开发能力有限，如果有能够集成了搜索、推荐一体化的解决方案，这样的方案肯定大受欢迎。采用Lucene来实现推荐引擎具有如下优势：

1）、Lucene 入门门槛较低，大部分网站的站内搜索都采用了Lucene

2）、相对于协同过滤算法，Lucene性能较高

3）、Lucene对Text Mining、相似度计算等相关算法有很多现成方案

在开源的项目中，Mahout或者Duine Framework用于推荐引擎是相对完整的方案，尤其是Mahout 核心利用了Lucene，因此其架构很值得借鉴。只不过Mahout目前功能还不是很完整，直接用其实现电子商务网站的推荐引擎尚不是很成熟。只不过从Mahout实现可以看出采用Lucene实现推荐引擎是一种可行方案。

3、采用Lucene实现推荐引擎需要解决的核心问题

Lucene擅长Text Mining较为擅长，Lucene在contrib包中提供了MoreLikeThis功能，可以较为容易实现Content-Based的推荐，但对于涉及用户协同过滤行为的结果（所谓的Relevance Feedback），Lucene目前并没有好的解决方案。需要在Lucene中内容相似算法中加入用户协同过滤行为对因素，将用户协同过滤行为结果转化为Lucene所支持的模型。