基于SIFT特征和颜色直方图的花卉图像分类
摘 要
课程实验提取图片的SIFT特征,通过k均值聚类的方法将所有训练图片的特征聚类为800类,以每个类出现的频率构建特征向量(又称为词袋模型),同时,通过观察数据集可以发现,颜色在构建每一个类的独特性的时候提供了较大的贡献,遂本文采用融合SIFT词袋模型特征向量和图像HSV颜色直方图的方法作为图片特征描述子,并使用支持向量机(SVM)进行分类。通过实验验证和数据分析可以发现该方法在OXFORD_flower17数据集上获得了不错的效果(72.3%)。
关键词:SIFT ;k均值聚类; 颜色直方图 ; 图像分类 ;词袋模型 ;SVM
图像分类简述(前言)
图像分类设计到根据图像的视觉内容对判断图像属于哪一个预定的标签。尽管人脑识别图片中的物体是一个很简单的过程,但对于计算机而言,鲁棒性的图像识别仍然是计算机视觉中一个颇具挑战的任务。传统机器视觉的图像分类的流程主要包括以下几个部分:数据预处理,特征提取,分类器训练,分类器识别。
1、数据预处理:原始的图片含有大量的冗余信息和噪声,不利于后续的特征提取,例如,在HOG算子提取之前,需要先对图片进行低通滤波,这是考虑到HOG算子需要计算图像的梯度,而梯度检测对噪声十分敏感,因此需要预先对图片进行低通滤波去除噪声。
2、特征提取:特征是对抽象图片内容的一种数据表示。在提取出图像描述子之后,我们可以利用图像描述子构建每张图片对应的特征向量,作为数据送入训练器训练分类模型。
3、分类器训练:对于已经拥有的样本标签和样本特征数据,我们将其作为分类器的训练数据使其学会一个分类模型或者分类函数。常见的分类器包括支持向量机(SVM)、决策树、逻辑回归、朴素贝叶斯、神经网络等算法。
4、分类预测: 为了测试训练好的分类器的性能,需要将测试图片提取的特征向量送入分类器进行预测,得到的输出结果