zz from:http://hi.baidu.com/lszhuhaichao/blog/item/a82e0c5182584214367abee0.html
基于Lucene的CBIR系统研究:从Lucene到LIRe
Lucene是一个全文检索的平台,它可以用于对文本分析,建立索引,那么它是怎么用于CBIR呢?我将接着上文继续从讲讲LIRe对图像数据是如何进行组织的,但这还得从Lucene说起。
1. Lucene的数据结构Document
使用过Lucene的人都应该知道,Lucene是通过Document这一数据结构来组织网络上的文档的。我们可以在Document的 field来表示文档的各种属性,比如文档的大小,建立时间,路径,文档的内容等等。
一个field一般有四个属性:field的名称,field的内容,field的Store属性和field的Index属性。其中Store属性表示是否进行存储,而Index属性用于表征索引,分词等等。
下图就是一个例子,这里做了简化处理,Index的属性只有NO和YES,实际上不是这样的。具体请参照相关的文章。
2. LIRe的数据存储
介绍完Lucene的Document,我们将继续说说LIRe是如何组织图像数据。LIRe的基本实现也是基于Lucene的Document。实现过程,就是如下:
先对图像提取特征,然后将特征转为字符串的形式存储在索引库中,不建立索引。但是必须同时保存绝对路径。这样就完成了对图像建立索引。