【搜索那些事】细谈lucene(一)初识全文资源检索框架lucene


算算差不多有小半年没正儿八经的写博客了,从考完专升本考试就直接参加了工作,工作四个月之后又回来上本科,开学又在校内创办了CSDN高校俱乐部,制定学员学习方向,搞讲座,办公开课,反正一切事情很多。现在开学已经差不多一个月了吧,一切基本都走上了正轨,但发觉自己的未来发展之路却进入了一个迷茫期,专科阶段一直致力于web应用方面的学习,现在想提升一下自己的能力和平台,但一直找不到学习方向。还有一个问题是考研不考研的问题。所以一直很纠结。如果大家有什么好的建议,欢迎给予评论和建议。在迷茫中给自己选择了一个搜索和大数据方向,其实我对这个方向也没有很明确的见解,只是以前比较留意了一些。不知道这个方向是否适合自己,但我一直坚定,没有适合不适合,只有努力不努力。本“搜索那些事”系列博客主要以“lucene——》nutch——》hadoop”为路线,我不知道自己能不能坚持下来,也希望大家给予监督。


一:lucene历史和简介


Lucene 是apache软件基金会一个开放源代码的全文检索引擎工具包,是一个全文检索引擎的架构,提供了完整的查询引擎和索引引擎,部分文本分析引擎。它不是一个完整的搜索应用程序,而是为你的应用程序提供索引和搜索功能。Lucene 目前是 Apache Jakarta 家族中的一个开源项目。Lucene的目的是为软件开发人员提供一个简单易用的工具包,以方便的在目标系统中实现全文检索的功能,或者是以此为基础建立起完整的全文检索引擎。

Lucene最初是由Doug Cutting所撰写的,他是一位资深的全文索引及检索专家,曾经是V-Twin搜索引擎的主要开发者,后来在Excite担任高级系统架构设计师,目前从事于一些INTERNET底层架构的研究。他同时也是当前最火的大数据处理框架hadoop的创始人,其实,hadoop刚开始就是以Lucene的子项目Nutch的一部分正式引入的。我也打算在“搜索那些事”系列博客中可以从lucene——》nutch——hadoop的一点点的全部写出来。Doug Cutting贡献出Lucene的目标是为各种中小型应用程式加入全文检索功能。lucene 能够为文本类型的数据建立索引,所以你只要能把你要索引的数据格式转化的文本的,Lucene 就能对你的文档进行索引和搜索。比如你要对一些 HTML 文档,PDF 文档进行索引的话你就首先需要把 HTML 文档和 PDF 文档转化成文本格式的,然后将转化后的内容交给 Lucene 进行索引,然后把创建好的索引文件保存到磁盘或者内存中,最后根据用户输入的查询条件在索引文件上进行查询。不指定要索引的文档的格式也使 Lucene 能够几乎适用于所有的搜索应用程序。尽管当时lucene是由java编写的,不过由于它设计思想的先进和用于广泛,所以现在已有其他编程语言的版本(c/c++,c#,python等)。已经有很多Java项目都使用了Lucene作为其后台的全文索引引擎,比较著名的有:

  • Jive:WEB论坛系统;
  • 11
    点赞
  • 21
    收藏
    觉得还不错? 一键收藏
  • 11
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 11
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值