搜索引擎的设计与实现（二）技术选型--全文索引

最新推荐文章于 2024-05-15 14:07:26 发布

非典型猿

最新推荐文章于 2024-05-15 14:07:26 发布

阅读量1.3k

点赞数

文章标签：搜索引擎毕业设计

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/u010386006/article/details/46564671

版权

全文索引其实贯穿于信息处理和Web子系统中，并不是只用于信息处理模块。前者负责读取文档，过滤信息，构造索引；后者，读取索引，利用算法进行相关性评价计算。

可以说，搜索引擎的核心就是全文索引。

目前使用较多的两种全文索引方式分别是：1.数据库做全文索引 2.索引文件

前者，有最为出名的，是使用C++编写的Sphinx；后者，有Java开源全文索引的老大--Lucene。

Sphinx是一个基于SQL的全文搜索引擎，且针对PHP、Python等脚本语言预留了接口。sphinx本身不支持中文分词，对分词库的支持较差。

而Lucene则更为强大，首先，是Java语言编写的，整合起来很方便。基于Lucene的优秀开源项目有Nutch、Solr、elasticsearch(前身是Compass)，其中Solr、elasticsearch都支持分布式。另外，Lucene对分词器的支持更好，自己也是发展了近10年的项目，有保障。

纯粹比较搜索速度，Sphinx是比Lucene快的。但是，Sphinx貌似不再支持实时更新索引，增量索引也更容易出现问题。所以Sphinx适用于准实时搜索，Lucene适用于实时搜索。

由于可能需要解析各类文档，且本人对Java更家熟悉，Lucene无疑是一个更好的选择。至于Solr、elasticsearch哪个好，就见仁见义了。后者更符合潮流，REST的接口，Web管理界面都是记好的。前者紧跟Lucene步伐，基本上可以用最新的特性，对于分词器之类的配置比较方便，还能直接索引MySQl和通过ODBC索引其余数据库。

在本文中，并没有考虑分布式的问题，所以直接采用了Lucene进行开发。

Lucene在我写博客的时候已经进入5.X时代，我刚开始研究的时候，貌似最新的是4.10。还是出于安全考虑，使用了低版本的4.7，更容易上手，有相关博客的教程。

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
搜索引擎的设计与实现（二）技术选型--全文索引

全文索引其实贯穿于信息处理和Web子系统中，并不是只用于信息处理模块。前者负责读取文档，过滤信息，构造索引；后者，读取索引，利用算法进行相关性评价计算。可以说，搜索引擎的核心就是全文索引。目前使用较多的两种全文索引方式分别是：1.数据库做全文索引 2.索引文件前者，有最为出名的，是使用C++编写的Sphinx；后者，有Java开源全文索引的老大--Lucene。Sphinx
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。