有问题的找我哈,转载标明出处http://blog.csdn.net/ikerpeng/article/details/25027567
里面具体的图没有贴了,原理还是比较好理解的。需要的找我!
基于朴素贝叶斯的图片分类
摘要
图片分类问题是计算机视觉中比较常见的问题。图片分类在日常的生活中,以及图片搜索中等方面都有很多很实际的用途。如何准确快速有效的进行图片分类,提高图片分类的准确率和召回率是现在主要要解决的问题。因此一个好的分类学习的算法以及一个好的特征提取的方式是非常重要的。本文所采取的学习算法是朴素贝叶斯算法。这种算法的结构简单,同时对于简单的文字或是图片处理效果非常的好。特征提取的方式是提取图片的颜色直方图。也是具有简单易操作的特点。
关键词:图片分类,学习,贝叶斯, 特征提取
Abstract
Image classification is more popular and common in computer vision . Image classification, in everyday life, as well as in image searching, has a lot of practical application. How to perform accurate image classification quickly and effectively, and how to improve image classification precision and recall rate are now the main problem to be solved. Thus, a good learning classification algorithm and a good feature extraction is very important. Learning algorithm is adopted here is Naive Bayes algorithm. This algorithm has a simple structure, but the effect for simple text or image processing is very good. Feature extraction approach is to extract the image color histogram. Also has a advantage of simple and easy .
Keywords:Image classification, learning, Bayesian, feature extraction
1. 引言
机器学习算法在计算机视觉,语音识别,数据挖掘以及很多其他的人工智能领域有非常重要的意义。机器学习算法的研究和发展极大的推动了这些领域的发展。因此机器学习算法的研究具有非常重要的意义。机器学习的算法主要分为产生式和判别式模型。通俗的来讲,产生式模型就是要学习到一个联合概率分布。而判别式模型则不需要学习随机变量的概率分布。所以文章中用到的贝叶斯模型是一个产生式模型。最终是要求得一个随机变量的联合概率分布。
在图片文类或是文本分类当中,我们要从已知的数据集当中得到计算机能够理解的数据。这也就是提取特征的过程了。下面主要是针对图像特征的提取。图像特征的提取有很多种方式。比如说,HOG特征,颜色特征,haar特征,SIFT特征等等。HOG特征是对图片的梯度直方图进行统计;颜色特征则是对图片的RGB颜色进行记录,具有简单直观的特点;harr特征这是定义不同的矩形块里面的灰度差异来表征图片的特征,通过积分图像来计算的话,计算的速度还是非常不错的;SIFT特征具有很多的不变性,能够很好的表示出图片的特征,最终得到的是一个108维的特征向量,是通过DOG(高斯积分图像)得到的,最大的缺点就是计算的速度比较慢。对于我们这次的图片分类的任务来讲,本身就具有两种图片,且二者二者的区分度很大。所以我们的重点是了解如何用我们所学到的机器学习的算法来实践具体的项目。所以我们在这里选择计算简单且效果不错的颜色特征。
所以本文采取的是贝叶斯模型通过颜色特征对图像来进行分类。首先通过所有的数据集构造一个字典,然后将所有的图片用这个字典映射为一个向量通过两种图片训练出一个图片分类器。
文章接下来的安排是这样的:在第二部分,我们将介绍整体的框架和步骤。贝叶斯的基本原理将在第三部分介绍。然后我们将在第四部分介绍特征的提取部分。有了基本的理论知识以后,我们将在第五部分介绍实验的相关部分。随后是整篇文章的总结和相关的参考文献。
2. 总体流程
总体流程图: