1 引言
近年来 ,随着多媒体技术和计算机网络的飞速发展 , 全世界的数字图像的数量正以惊人的速度在增长。为了使这些庞杂的图像中所包含的信息被有效的访问和利用 ,必然需要一种
能够快速而且准确地查找访问图像的技术 , 即图像的检索技术。此外 ,随着大规模数字图像库的出现 , 传统的依赖于人工标注进行的基于文本的图像检索技术已经无法满足用户日益增长的要求 , 基于内容的图像检索技术便应运而生。C B I R 的一般做法是先提取出图像的特征建立特征数据库 ,这样就把图像库中的一个实例转换成了特征空间中的一个点。 而图像特征一般都是高维的矢量数据 ,所以对图像基于内容的相似检索就转换为对高维特征矢量的最近邻检索。与此同时 ,对于大规模的图像数据库而言 ,其特征数据库也是大规模的。 因此传统的顺序扫描方式必然满足不了用户的检索要求 ,这就迫切需要有合适的索引机制来辅助、 加速检索的进程 。 但是 ,传统的多数索引机制当处理的数据维数超过5时 ,其性能会急剧下降 ,甚至不如顺序扫描 ,这也就是通常所说的“ 维度灾难 ” 。 本文即以此为出发点 ,总结了 C B I R 中高维索引技术的研究现状 、 指出了其中存在的问题及今后的发展趋势 ,提出了一个新的索引机制。
2 已有的索引技术
对于大规模图像数据库来说 ,线性扫描已经满足不了用户的需求 ,因此需要利用相应的技术和数据结构来组织特征向量并管理搜索过程 ,从而加快查询的速度 , 这就是索引应对实现的基本功能。 多媒体数据库的索引机制与一般索引结构的一个重要区别在于它面临着“ 维度灾难 ” 带来的影响 。围绕着这个问题 ,近年来有很多研究者提出了很多的解决方法 , 这些方法可以分成五类 : 多维索引方法、 降维的方法 、 近似最近邻方法 、 多重填充曲线方法和基于过滤的方法。
2.1 多维索引方法
多维索引方法 (Multidimensional Indexing Method, MIM ) 通过划分数据空间 ,根据划分对数据进行聚类并利用划分对搜索空间进行剪枝以提高查询效率。这类方法在处理低维数据时
效果很好 ,但在高维时其性能甚至差于顺序扫描。 最为成功的M I M 方法是基