与lucene亲密接触第一集

这两天开始研究lucene,

可怜连java都没用过的我简直是举步维艰啊,

于是还附带的小学习了一下myeclipse等玩意的配置。。今天收获颇丰,晒一下与lucene第一次亲密接触的成果。

 

上apache的官网下了一个lucene最新版,(发现居然有人人网的一个分流,不错~下载速度很快!)

然后看了半天多lucene的基础教程,大概理清楚了他的框架和工作流程。

 

lucene我们应该理解为一个搜索引擎的类库,它不是一个完整的产品/软件,而是一个开发包,可以基于它快速开发满足自己需求的搜索引擎。

其扩展度很大,完全可以根据自己的需求定制,且底层实现效率很高。是apache基金会现在维护的。

 

其功能上总体就分为两块,倒排序索引的建立 与 搜索业务处理,

倒排序及相关度概念还是用的TF/IDF,以及经典的“相关度向量余弦”概念。基本原理都很好理解。

 

接着我开始在本地部署测试例程,

 

然后照着各种网上例程自己写了一个。然后集成了一个口碑不错的IKAnalyzer的中文分词器,感觉效果不错!

入库的 中华人民共和国,我搜 “中华共和国”也能搜出来(自动分为 中华|共和国|……)

 

建立倒排序索引:

  

 

搜索业务:

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值