ColorLayout原理及性能

什么是Color Layout?

Color Layout Descriptor是mpeg-7多媒体内容标准描述中一种高效的局部颜色特征描述,在基于内容的图像检索(Content Based Image Retrieval (CBIR) ) 中表现出很好性能,拥有计算成本低,匹配计算速度快,识别准确率高等优点。

Color Layout可以应用于以图搜图、匹配视频片段等方面,目前比较成熟以图搜图的开源项目LIRE就有对该算法的实现。


Color Layout Descriptor(CLD)提取过程

Descriptor的提取过程,在以图搜图的功能中,就是对图像提取特征值并建立索引的过程。以图搜图,简单来说就是首先对数据库中所有的图片建立索引,在图片匹配阶段,通过对目标图片进行Descriptor提取,再与数据库中的索引信息进行匹配运算,对所有的结果进行排序,输出理想图片。

Color Descriptor的提取过程包括四个阶段:

  • 图像分割
  • 代表颜色选择
  • DCT变换
  • Z字形扫描

Color Layout描述符提取过程

一、图像分割

这里写图片描述

在图像分割阶段,将输入图像(在RGB颜色空间)分割成64个块。每个块的大小为W / 8×H / 8,其中W和H表示作为输入图像的宽度和高度。

输入级1输出级1
输入图像[M×N]输入图像分为64个块[M/8xN/8]

二、代表颜色选择

这里写图片描述

在此过程中,MPEG-7标准建议使用的YCbCr用于CLD色彩空间。首先将图像从RGB色彩空间转换到YCbCr色彩空间,然后使用块中的像素颜色的平均值作为相应的代表颜色,因为这样选取很简单,并且描述精度一般是足够的。

输入级2输出级2
输入图像分为64个块[M/8xN/8]小的图像图标[8×8]
输入级3输出级3
在RGB颜色空间小的图像图标[8×8]在YCbCr颜色空间中小的图像图标[8×8]

三、DCT变换

这里写图片描述

在此阶段,亮度(Y)和蓝色和红色色度(Cb和Cr)通过8×8 DCT变换,由此得到三组含有64个系数的DCT矩阵,DCT变换使用的公式如上。

输入级4输出级4
在YCbCr颜色空间中小的图像图标[8×8]64个系数的3 [8×8]矩阵(DCTY,DCTCb,DCTCr)

四、Z字形扫描

这里写图片描述

对上一个步骤中得到的三组含有64个DCT系数的矩阵进行Z字形扫描,按照图中的顺序进行扫描,这样扫描的目的是对8x8矩阵的低频系数进行分组。

扫描之后得到的三个矩阵即为输入图像的Color Layout Descriptor。

由于对步骤二中选取的主要颜色进行了DCT变换,在高频系数中包含较少或几乎不含有图像的信息,所以在进行图像检索的时候,应给予较低频率分量的较大的权重,也就是说加权值应根据Z字形扫描顺序减少。下文关于优化的部分将详细说明。

输入级5输出级5
64个系数的3组[8×8]矩阵(DCTY,DCTCb,DCTCr)3个折线扫描矩阵(DY,DCb,DCR)

Descriptor匹配

完成Color Layout Descriptor提取之后,即可以实现以图搜图的功能,通常通过计算Descriptor之间的距离来完成匹配工作。计算两张图片Color Layout Descriptor之间的距离公示如下:

这里写图片描述

其中,Yi,Cbi和Cri表示Y,Cb,Cr颜色分量的第i个系数,w1i,w2i和w3i分别代表第i组系数的加权值,由于低频部分含有较多的信息,故加权值应根据Z字形扫描顺序减少。

由于上述相似度匹配处理的复杂度低,所以可以实现高速图像匹配。

Descriptor优化

此处的优化工作主要是从两方面进行的:

  1. 包含在Color Layout Descriptor中的系数的最佳数量
  2. 存储每个系数的最佳bit数

在检索精度和相似度计算成本之间的权衡,可以优化系数的数量以最大化检索效率。
在检索精度和描述符大小之间的权衡,可以优化比特分配以最大化检索效率。

通过ANMRR (Average Normalized Modified Retrieval Rank)来评价Descriptor的检索效率,它是由Manjunath引入的用于评估Color Descriptor的性能的度量,也被应用于MPEG-7开发中的客观评价。较小的ANMRR具有较高的性能。

实验结果如下:

这里写图片描述

上图显示出了具有固定数目的Y系数的系数总数与ANMRR之间的关系。该图表明,总共12个系数,6个亮度系数和每个色度3个系数是最佳的选择。

这里写图片描述

从上图我们得出结论,最佳Descriptor用63位表示,最优位分配为6 bits / DC系数 和 5 bits / AC系数。

下面给出一张图片的最优存储结果:

[beach.jpg] mpeg7:YACCoeff5 “16 12 15 12 17” ;
mpeg7:CbACCoeff2 “22 17” ;
mpeg7:CrACCoeff2 “16 14” ;
mpeg7:YDCCoeff “50”^^mpeg7:unsigned6 ;
mpeg7:CbDCCoeff “34”^^mpeg7:unsigned6 ;
mpeg7:CrDCCoeff “30”^^mpeg7:unsigned6 .

YACCoeff5由五个mpeg7:unsigned5值声明
CbACCoeff2和CrACCoeff2由两个mpeg7:unsigned5值声明。
YDCCoeff,CbDCCoeff 和 CrDCCoeff 由6位的 mpeg7:unsigned6值声明。


针对上述优化过程,可以得出在实际建立索引的过程中,存储的索引内容只包含12个系数,那么,根据前面提到的在高频系数中包含较少或几乎不含有图像的信息,所以在进行图像检索的时候,应给予较低频率分量的较大的权重,也就是说加权值应根据Z字形扫描顺序减少。下面给出一种可行的权重W的分配方案:
这里写图片描述

Weight123456
Y222111
Cb211
Cr422

参考资料:
1.Wiki 百科 Color layout descriptor
2.The MPEG-7 color layout descriptor: a compact image feature description for high-speed image/video segment retrieval
3.Efficient vehicle identification using MPEG-7 Color Layout Descriptor
4.Robust video editing detection using Scalable Color and Color Layout Descriptors
5.Segmentation-based Fractal Texture Analysis and Color Layout Descriptor for Content Based Image Retrieval

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值