一个叫katta的开源项目进入我的视线,它是一个分布式索引建立和管理工具,底层是hadoop的hdfs分布式文件系统,hadoop是当今云计算的热门使用项目,由apatch开源是一个海量数据的处理和存储方案,它的主要核心就是它的hdfs分布式文件存储系统和mapreduce算法,它们分别是google论文中的gfs和mapreduce的开源实现。目前大公司的云计算平台基本上都是基于它来搭建的。因为我之前在学校做的一个搜索引擎项目也是基于它的,所以我对它还是比较熟悉的,通过之前写过的自动化部署脚本,我很快就搭起了一个由4台机器组成的hadoop集群,每台机160G的硬盘,乘于4的话就是640G了,而且这640G还是一个整体来的哦,以后如果空间不够了,或者运算能力不够了的话就直接加机器就行了,使用hadoop可以非常容易的提高整个系统的运算能力,google的核心技术之一就它了。而katta这个项目只是个lucene的索引管理工具,通过hadoop的mapreduce算法来批量建立索引,它的很大部分特性都是参考了nutch(一个基于hadoop的开源爬虫项目),它提供的搜索功能很弱,只有最基本的查询方法,一些高级的如:分组,统计,范围查询都没有的,于是试试看看能否把它和solr进行集成,因为solr提供了很强大的搜索功能,网上搜索发现有人已经研究实现它了,就是这个帖子https://issues.apache.org/jira/browse/SOLR-1395,不过配置过程极其复杂,而且还要该很多的源码,我看那帖子是从10年就开始了的,他们的讨论已经持续一年多了,貌似还没有什么结果,可见难度还是比较大的。就没有深入去了解。
katta官网:http://katta.sourceforge.net/