第二步:从数据集提取特征
上篇里我们已经定义好了图像描述符。接下来我们就要对数据集的每一幅图像提取特征并将其保存起来,这个过程称为索引化。
代码
创建一个新文件夹,index.py
#导入所需模块
#argparse模块来处理命令行参数.glob来获取图像的文件路径
from pyimagesearch.colordescriptor import ColorDescriptor
import argparse
import glob
import cv2
#处理命令行参数,需要两个指令,-dataset,表示相册的路径,-index,表示输出的CSV文件含有图像文件名和对应特征
ap=argparse.ArgumentParser()
ap.add_argument("-d","--dataset",required=True,help="Path to the directory that contains the image to be indexed")
ap.add_argument("-i","--index",required=True,help="Path to where the computed index will be stored")
args=vars(ap.parse_args())
#初始化ColorDescriptor,8bin用于色相,12bin用于饱和度,3bin用于明度
cd=ColorDescriptor((8,12,3))
现在所有内容都初始化了,可以从数据集提取特征了.
#打开输出的索引文件以写入
output=open(args["index"],"w")
#用glob来获取图片路径以遍历数据集中的所有图像
for imagePath in glob.glob(args["dataset"]+"/*.png")
#对于没副图像我们可以提取一个imageID,即图像的文件名.
imageID=iamgePath[iamgePath.rfind("/")+1:]
image=cv2.imread(imagePath)
#现在图像载入内存了,对图像使用图像描述符并提取特征。ColorDescriptor的describe方法返回由浮点数构成的列表,用来量化并表示图像。
features=cd.describe(image)
#将图像的文件名和特征向量写入文件
features=[str(f) for f in features]
output.write("%s,%sn" % (imageID,",".join(features)))
output.close()
现在,为了索引化我们的相册数据集,打开一个命令行输入下面命令:
$ python index.py --dataset dataset --index index.csv
这个脚本运行完成后 可以获得一个名为index.csv的新文件
可以看到在.csv文件的每一行,第一项是文件名,第二项是一个数字列表。这个数字列表就是用来表示并量化图像的特征向量。