全文检索、数据挖掘、推荐引擎
最老程序员闫涛
关注全文检索、数据挖掘、推荐引擎技术,Android开发技术,互联网及移动互联网创业。
展开
-
全文检索、数据挖掘、推荐引擎系列2---异步服务实现
正向前一篇分析的,在全文检索、数据挖掘、推荐引擎的后台系统中,通常可以提供三种类型的服务:同步服务、异步服务、后台服务。对于同步服务可以采用Web Service、XML Over HTTP或Restful服务,我在项目中就采用了Jason over HTTP,主要考虑Javas原创 2011-08-11 16:08:13 · 4964 阅读 · 3 评论 -
全文检索、数据挖掘、推荐引擎系列1---技术架构
在后web2.0时代,简单的允许用户产生内容,连接用户组成社交网络,满足用户个性化需求,已经变成各个网站的标配,不可能成为网站的特色和竞争优势了。然而,随着用户产生内容的增多,用户与系统交互手段的丰富,用户可供选择的选项的增多,用户迫切需要一种可以处理当前信息爆炸时代的工具,可以原创 2011-08-09 17:46:20 · 10326 阅读 · 10 评论 -
全文检索、数据挖掘、推荐引擎系列3---全文内容推荐引擎之中文分词
基于内容的推荐引擎有两种实现途径,一种是根据条目的元数据(可以将元数据理解为属性),另一种是根据条目的文本描述信息。本系列中将先描述基于条目描述信息的全文检索实现方式,然后描述基于元数据的内容推荐引擎实现方式。对于基于条目文本描述信息的内容推荐引擎,目前有很多资料可以参考,基原创 2011-08-12 16:34:42 · 5546 阅读 · 5 评论 -
全文检索、数据挖掘、推荐引擎系列4---去除停止词添加同义词
Lucene对文本解析是作为全文索引及全文检索的预处理形式出现的,因此在一般的Lucene文档中,这一部分都不是重点,往往一带而过,但是对于要建立基于文本的内容推荐引擎来说,却是相当关键的一步,因此有必要认真研究一下Lucene对文解析的过程。Lucene对文本的解析对用户的原创 2011-08-16 16:37:11 · 5269 阅读 · 2 评论 -
全文检索、数据挖掘、推荐引擎系列5---文章术语向量表示法
无论是要进行全文检索,还是对文章进行自动聚类分析,都需要将文章表示为术语向量(Term Vector),在Lucene内部就是通过术语向量来对文章进行索引和搜索的,但是Lucene没有向外提供合适的术语向量计算接口,所以对术语向量计算还必须我们自己来做。术语向量解述众所周原创 2011-08-19 16:39:36 · 5366 阅读 · 8 评论 -
全文检索、数据挖掘、推荐引擎系列6---基于KMean的文本自动算法
对一系列文章进行自动聚类可以做为基于内容的推荐引擎的基础,如果要实现文本的自动聚类,首先按照本系列5中所介绍的,对文章进行分词,然后计算得出文章的术语向量表示,即求文章中每个不同的单词以其所对应的TF*IDF,具体计算方法如5中所示。目前文本自动聚类算法中,用得最多是KMean算原创 2011-08-24 16:28:08 · 6741 阅读 · 8 评论 -
全文检索、数据挖掘、推荐引擎系列7---条目相似度算法
在实际的项目中,有许多场合需要进行条目相似度计算,比如在电商系统中,经常有喜欢这个商品的用户还喜欢,通常计算商品的相似度是实现这种功能的方法之一,这可以视为一种基于内容的推荐系统的应用。同时,计算相似度不仅可以用于推荐商品,利用同样的算法,我们还可以计算出用户的相似度,可以向用户原创 2011-08-29 17:11:22 · 7107 阅读 · 6 评论 -
Lucene 4.x实践1
在Lucene 3.x时代,《Lucene In Action》是一本相当不错的参考书,书中详细介绍了Lucene各种高级使用技术,对于开发者来说非常实用。但是近期Lucene升级到了4.x版本,在性能等各方面有了很大的提高,值得在新项目中使用。然而Lucene 4.x中的API相比3.x来说有了很大的改变,《Lucene In Action》中的很多内容都已经过时了,并且由于4.x推出的时间不长原创 2013-02-17 16:19:12 · 7303 阅读 · 5 评论