OpenCV的图像分类基础知识

这篇博客将提供一个高级概述的图像分类,以及许多挑战的图像分类算法,还将审查与图像分类和机器学习相关的三种不同类型的学习。

最后,将通过讨论培训深度学习网络的四个步骤来讨论图像分类的四个步骤以及该四步管道如何与传统的手工特征提取管道进行比较。

1. 原理

图像分类是一项非常大的研究领域,包括各种各样的技术 - 以及深度学习的普及,它正在继续增长。

图像分类和图像理解目前(并且将继续)是未来十年最受欢迎的计算机愿景子领域。将来将看到谷歌,微软,百度等公司,开启了解图像的征程。将在智能手机上看到越来越多的消费者应用程序,可以理解和解释图像的内容。甚至可能使用计算机视觉算法自动引导的无人驾驶飞机。

2 什么是图像分类?

图像分类是将标签从预定义的类别集分配给图像的任务。这意味着目标是分析输入图像并返回对图像分类的标签。标签始终来自预定义的可能类别。

即给定分别具有红色、绿色和蓝色三个通道的 W×H 像素的输入图像,目标是采用 W×H×3 = N 像素的图像并找出如何正确分类的内容图片。

  • 数据集:图像的集合
  • 数据点:每一张图像
  • 语义差距/鸿沟:如何感知图像与如何表示图像(数字矩阵)之间的差异称为语义差距。语义鸿沟是人类如何感知图像内容与如何以计算机可以理解的方式表示图像之间的差异。

如何以计算机可以理解的方式对所有这些信息进行编码?
答案是应用特征提取来量化图像的内容。特征提取是获取输入图像、应用算法并获得量化图像的特征向量(即数字列表)的过程。
可以考虑如 HOG、LBPS 或其他“传统”方法来进行图像量化。本书采用的另一种方法是应用深度学习来自动学习一组特征,这些特征可用于量化并最终标记图像本身的内容。

在开发图像分类系统时,需要了解对象在不同视点、光照条件、遮挡、规模比例、扭曲变形、类内变化(种类的多样性)、背景杂波(一个物体位于嘈杂的背景中)等下的表现方式。 情况远比这个复杂,在某一点上模型不具有鲁棒性,而大多数时候需要组合考虑多个因素;

识别整个厨房的物体可能比较困难,但如果将问题框定起来并缩小范围,例如“只想识别炉灶和冰箱”,那么系统就更有可能准确且正常运行,尤其是第一次使用图像分类和深度学习。

图像分类:关键要点是始终考虑图像分类器的范围。虽然深度学习和卷积神经网络在各种挑战下表现出显着的稳健性和分类能力,但仍然应该尽可能地保持项目范围的紧凑和明确。

ImageNet 是图像分类算法事实上的标准基准数据集,由在日常生活中遇到的 1,000 个对象组成——研究人员仍在积极使用该数据集,试图向前推动最先进的深度学习。
深度学习不是魔术。相反,深度学习就像车库里的卷轴锯——正确使用时强大而有用,但如果使用不当,则很危险。

3. 图像分类算法

机器学习和深度学习分类:监督学习、无监督学习和半监督学习。

  • 监督学习(Supervised Learning)

    监督学习的一个典型例子是垃圾邮件过滤系统,可以自动将电子邮件分类为垃圾邮件或非垃圾邮件。

    首先需要一个由电子邮件本身及其类别标签(垃圾邮件或非垃圾邮件)组成的训练集。有了这些数据,就可以分析电子邮件中的文本(即单词的分布),并利用垃圾邮件/非垃圾邮件标签来教机器学习分类器哪些单词出现在垃圾邮件中,哪些没有。

    监督学习可以说是最著名和研究最多的机器学习类型。给定训练数据,通过训练过程创建模型(或“分类器”),其中对输入数据进行预测,然后在预测错误时进行纠正。这个训练过程一直持续到模型达到某个期望的停止标准,例如低错误率或最大训练迭代次数。

    常见的监督学习算法包括逻辑回归、支持向量机 (SVM)、随机森林和人工神经网络。

    为了解释监督学习、无监督学习和半监督学习之间的差异,我选择使用基于特征的方法(即 RGB 颜色通道的均值和标准差)来量化图像的内容。**当开始使用卷积神经网络时,实际上会跳过特征提取步骤并使用原始像素强度本身。**由于图像可能是大型 MxN 矩阵(因此不能很好地适应这个电子表格/表格示例),我使用特征提取过程来帮助可视化学习类型之间的差异。

  • 非监督学习(Unsupervised Learning)

    与监督学习相反,无监督学习(也称为自学学习)没有与输入数据相关联的标签,因此如果模型做出错误预测就无法纠正模型。将监督学习问题转换为无监督学习问题就像删除“标签”列一样简单。

    无监督学习有时被认为是机器学习和图像分类的“圣杯”。由于互联网上有大量未标记的数据可用。如果可以让算法从未标记的数据中学习模式,那么就不必花费大量时间(和金钱)为监督任务费力地标记图像。

    用于无监督学习的经典机器学习算法包括主成分分析 (PCA Principal Component Analysis) 和 k 均值聚类。具体到神经网络,我们看到自动编码器(AutoEncoders)、自组织映射 (SOM Self Organizing Maps) 和自适应共振理论( Adaptive Resonance Theory)应用于无监督学习。无监督学习是一个非常活跃的研究领域。

  • 半监督学习(Semin Supervised Learning)

    如果只有一些与数据相关的标签,而没有其他标签,会发生什么?有没有一种方法可以应用一些监督和非监督学习的混合,并且仍然能够对每个数据点进行分类?事实证明答案是肯定的——半监督学习。

    半监督学习算法将获取已知的数据片段,对其进行分析,并尝试标记每个未标记的数据点以用作额外的训练数据。随着半监督算法学习数据的“结构”以做出更准确的预测并生成更可靠的训练数据,此过程可以重复多次迭代。

    在执行半监督学习时,只有图像/特征向量子集的标签,并且必须尝试标记其他数据点以将它们用作额外的训练数据。

    半监督学习在计算机视觉中特别有用,因为在训练集中标记每个图像通常是耗时、乏味和昂贵的(至少在工时方面)。如果根本没有时间或资源来标记每个单独的图像,只能标记数据的一小部分,并利用半监督学习对其余图像进行标记和分类。

半监督学习算法通常用较小的标记输入数据集来换取分类准确度的一些可容忍的降低。通常,监督学习算法的标记训练越准确,它可以做出的预测就越准确(对于深度学习算法尤其如此)。

随着训练数据量的减少,准确性不可避免地受到影响。半监督学习考虑了准确性和数据量之间的这种关系,并试图将分类准确性保持在可容忍的范围内,同时显著减少构建模型所需的训练数据量——最终结果是一个准确的分类器(但通常不是准确作为监督分类器),半监督学习的流行选择包括标签传播、标签传播、阶梯网络和协同学习/协同训练(label spreading, label propagation, ladder networks, and co-learning/co-training)。

参考

  • 10
    点赞
  • 41
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 4
    评论
这是opencv svm图像分类的整个工程代码,在VS2010下打开即可。整个工程文件以及我的所有训练的图片存放在这里,需要的可以下载,自己在找训练图片写代码花了很多时间,下载完后自行解压,训练图片和测试图片可以从这免费下载http://download.csdn.net/detail/always2015/8944959,project data文件夹直接放在D盘就行,里面存放训练的图片和待测试图片,以及训练过程中生成的中间文件,现在这个下载object_classfication_end则是工程文件,我用的是vs2010打开即可,下面工程里有几个要注意的地方: 1、在这个模块中使用到了c++的boost库,但是在这里有一个版本的限制。这个模块的代码只能在boost版本1.46以上使用,这个版本以下的就不能用了,直接运行就会出错,这是最需要注意的。因为在1.46版本以上中对比CsSVM这个类一些成员函数做了一些私有化的修改,所以在使用该类初始化对象时候需要注意。 2、我的模块所使用到的函数和产生的中间结果都是在一个categorizer类中声明的,由于不同的执行阶段中间结果有很多个,例如:训练图片聚类后所得到单词表矩阵,svm分类器的训练的结果等,中间结果的产生是相当耗时的,所以在刚开始就考虑到第一次运行时候把他以文件XML的格式保存下来,下次使用到的时候在读取。将一个矩阵存入文本的时候可以直接用输出流的方式将一个矩阵存入,但是读取时候如果用输入流直接一个矩阵变量的形式读取,那就肯定报错,因为输入流不支持直接对矩阵的操作,所以这时候只能对矩阵的元素一个一个进行读取了。 3、在测试的时候,如果输入的图片太小,或者全为黑色,当经过特征提取和单词构造完成使用svm进行分类时候会出现错误。经过调试代码,发现上述图片在生成该图片的单词的时候所得到的单词矩阵会是一个空矩阵,即该矩阵的行列数都为0,所以在使用svm分类器时候就出错。所以在使用每个输入图片的单词矩阵的时候先做一个判断,如果该矩阵行列数都为0,那么该图片直接跳过。
评论 4
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

程序媛一枚~

您的鼓励是我创作的最大动力。

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值