分布式搜索方案选型之四:Solr+Katta

 

      一个叫katta的开源项目进入我的视线,它是一个分布式索引建立和管理工具,底层是hadoop的hdfs分布式文件系统,hadoop是当今云计算的热门使用项目,由apatch开源是一个海量数据的处理和存储方案,它的主要核心就是它的hdfs分布式文件存储系统和mapreduce算法,它们分别是google论文中的gfs和mapreduce的开源实现。目前大公司的云计算平台基本上都是基于它来搭建的。因为我之前在学校做的一个搜索引擎项目也是基于它的,所以我对它还是比较熟悉的,通过之前写过的自动化部署脚本,我很快就搭起了一个由4台机器组成的hadoop集群,每台机160G的硬盘,乘于4的话就是640G了,而且这640G还是一个整体来的哦,以后如果空间不够了,或者运算能力不够了的话就直接加机器就行了,使用hadoop可以非常容易的提高整个系统的运算能力,google的核心技术之一就它了。而katta这个项目只是个lucene的索引管理工具,通过hadoop的mapreduce算法来批量建立索引,它的很大部分特性都是参考了nutch(一个基于hadoop的开源爬虫项目),它提供的搜索功能很弱,只有最基本的查询方法,一些高级的如:分组,统计,范围查询都没有的,于是试试看看能否把它和solr进行集成,因为solr提供了很强大的搜索功能,网上搜索发现有人已经研究实现它了,就是这个帖子https://issues.apache.org/jira/browse/SOLR-1395,不过配置过程极其复杂,而且还要该很多的源码,我看那帖子是从10年就开始了的,他们的讨论已经持续一年多了,貌似还没有什么结果,可见难度还是比较大的。就没有深入去了解。

 

katta官网:http://katta.sourceforge.net/

评论 4
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值