详细介绍:http://lucene.apache.org/
一、lucene与sorl的作用
lucene是一个Apache的开源的全文检索工具包,为用户提供了索引、检索、文本分析等解决方案,方便用户快速搭建一个高可用的全文检索系统。lucene的组成部分:
1、Directory(目录)
1.1 SimpleFSDirectory
简单文件目录,并发能力有限,遇到多线程读同一个文件时会遇到瓶颈,通常用NIOFSDirectory或MMapDirectory代替
1.2 NIOFSDirectory
通过java.nio's FileChannel实行定位读取,支持多线程读(默认情况下是线程安全的)。该类仅使用FileChannel进行读操作,写操作则是通过 FSIndexOutput实 现。 注意:NIOFSDirectory 不适用于Windows系统,另外如果一个访问该类的线程,在IO阻塞时被interrupt或cancel,将会导致底层的文件描述符被关 闭,后续的线 程再次访问NIOFSDirectory时将会出现ClosedChannelException异常,此种情况应用SimpleFSDirectory代替。
1.3 MMapDirectory
通过内存映射进行读,通过FSIndexOutput进行写的FSDirectory实现类。使用该类时要保证用足够的虚拟地址空间。另外当通过IndexInput的close方法进行关闭时并不会 立即关闭底层的文件句柄,只有GC进行资源回收时才会关闭。
1.4 RAMDirectory
常驻内存的Directory实现方式。默认通过SingleInstanceLockFactory(单实例锁工厂)进行锁的实现。该类不适合大量索引的情况。另外也不适用于多线程的情况。 在索引数据量大的情况下建议使用MMapDirectory代替。RAMDirectory是Directory抽象类在使用内存最为文件存储的实现类,其主要是将所有的索引文件保存到内存中。 这样可以提高效率。但是如果索引文件过大的话,则会导致内存不足,因此,小型的系统推荐使用,如果大型的,索引文件达到G级别上,推荐使用FSDirectory
1.5 NRTCachingDirectory
是对RAMDirectory的封装,适用于近乎时时(near-real-time)操作的环境。
2、Analyzer(分词器)
3、Doucment(节点)
4、IndexWriter(索引)