(论文精读)PCANet:一种简单的图像分类的深度学习基线

PCANet是一种简单的深度学习图像分类方法,基于级联主成分分析(PCA)、二进制散列和块状直方图。论文通过实验表明,尽管结构简单,PCANet在人脸识别、手写数字识别和对象分类等任务上与复杂深度学习模型的表现相当,甚至在某些数据集上创造了新纪录。PCANet还提出了两个变体RandNet和LDANet,进一步研究了网络结构和学习方式。该模型挑战了深度学习的常识,证明了简单网络结构也能实现高性能。
摘要由CSDN通过智能技术生成

PCANet:一种简单的图像分类的深度学习基线

\quad\quad 这篇文章主要对论文《PCANet: A Simple Deep Learning Baseline forImage Classification?》进行中文翻译,翻译的中加入了自己的理解,如果有不恰当的地方,欢迎大家提出。
\quad\quad 论文大体可以分为五部分,摘要,引言,方法(级联线性网络结构(PCANet),实验,结论。
论文作者;Tsung-Han Chan, Member, IEEE, Kui Jia, Shenghua Gao, Jiwen Lu, Senior Member, IEEE,
Zinan Zeng, and Yi Ma, Fellow, IEEE
论文来源:IEEE TRANSACTIONS ON IMAGE PROCESSING, VOL. 24, NO. 12, DECEMBER 2015
论文链接:http://arxiv.org/abs/1404.3606
论文下载地址:https://arxiv.org/pdf/1404.3606v1.pdf

摘要

\quad\quad 在本文中,我们提出了一个非常简单的深层次基于非常的图像分类学习网络基本数据处理组件:1)级联主成分
分析(PCA); 2)二进制散列; 3)块状直方图。在提出的架构中,PCA被用于学习多级滤波器组。接下来是简单的二进制文件用于索引和汇集的散列和块直方图。这个因此,架构称为PCA网络(PCANet)和可以非常容易和有效地设计和学习。为了比较并提供更好的理解,我们还介绍和研究了PCANet的两个简单变体:1)RandNet和2)LDANet。它们共享相同的拓扑结构PCANet,但它们的级联滤波器是随机选择的或从线性判别分析中学习。我们有广泛的在许多基准可视化数据集上测试了这些基本网络适用于不同的任务,包括野外标记面(LFW)用于面部验证; MultiPIE,扩展耶鲁B,AR,面部护理用于人脸识别的识别技术(FERET)数据集;MNIST用于手写数字识别。令人惊讶的是所有任务,这种看似天真的PCANet模型都与之相提并论最先进的功能,无论是前缀,高度手工制作,或[通过深度神经网络(DNN)]仔细学习。更令人惊讶的是,该模型为许多分类设定了新记录扩展的耶鲁B,AR和FERET数据集和关于MNIST的变化。其他公众的其他实验数据集还证明了PCANet作为个整体的潜力简单但竞争激烈的纹理分类基线和对象识别。
关键词 - 卷积神经网络,深度学习,PCA网络,随机网络,LDA网络,人脸识别,手写数字识别,对象分类。

引言

\quad\quad 基于视觉视觉语义的图像分类是非常的挑战性的任务,主要是因为通常有很大的不同照明产生的类内变异量条件,包括光照变化、不匹配不对齐、形变因素、遮挡因素等。学者们已经做出了许多努力提出各种各样的特征来应对这些变化。代表性示例是用于纹理和面部分类的Gabor特征和局部二元模式(LBP)以及用于对象识别的SIFT和HOG特征。虽然这些手选的底层特征能够很好的应对特定情况下的数据处理任务,但是这些特征的泛化能力有限,对待新问题往往需要构建新的特征。从数据中学习得到感兴趣的特征被认为是克服手选特征局限性的一个好的方法。这种方法的一个例子是通过深度神经网络(DNN)进行学习,这种网络最近引起了人们的极大关注[1]。深度学习的基本思想是通过构建多层网络,对目标进行多层表示,以期通过多层的高层次特征来表示数据的抽象语义信息,获得更好的特征鲁棒性。图像分类中深度学习成功的一个关键的框架是卷积网络框架的使用[3] - [10]。卷积深度神经网络(ConvNet)框架[3] - [5],[8],[9]由多个可训练的阶段组成,这些阶段彼此叠加,然后是监督分类器。每个阶段通常由“三层”组成 - 卷积层、非线性处理层以及下采样层。通常,这种网络通常使用梯度下降(SGD)方法来对其进行训练。尽管已经针对不同的视觉任务提出了许多深度卷积网络的变化,并且取得了显著成效。一个典型的例子就是小波散射模型(ScatNet),其通过将卷积核改为小波核来避免算法学习的步骤。然而就是这一简单改动,使其居然能够在手写数字识别和文本识别等方面超过相同层次的卷积网络和深度神经网络,不过由于
难以应对光照变化和遮挡影响,它在人脸识别方面表现不佳。

A动机和目的

\quad\quad 我们研究的最初动机是希望解决卷积网络(ConvNet)和小波网络(ScatNet)之间的某些明显差异。我们希望实现两个简单的目标:首先,我们希望设计一个简单的深度学习网络,该网络应该非常容易,甚至是微不足道的,以便训练和适应不同的数据和任务。其次,其次,希望能为深度学习的深入研究和应用提供一个基本的参考基准。解决方案:,我们使用最基本的PCA滤波器作为卷积层滤波器,在非线性层使用二值化哈希编码处理,在重采样层使用分块扩展直方图并辅以二值哈希编码,将重采样层的输出作为整个PCANet网络最终的特征提取结果,考虑到以上的因素,我们将这种简洁的深度学习结构命名PCANet。作为示例,图1示出了两阶段PCANet如何从输入图像中提取特征。

在这里插入图片描述
(图1)
图1.PCANet如何从中提取特征的图示,图像通过三个最简单的处理组件:PCA过滤器,二进制散列和直方图。
PCANet模型挑战了建立深度学习网络的常识,例如ConvNet [4],[5],[8]和ScatNet [6],[10]:在早期阶段没有非线性操作直到最后一个输出层(使用二进制散列和直方图)计算输出特征的PCANet。然而,正如我们将通过大量实验看到的那样,这种大幅度的简化似乎并没有破坏性能。PCANet密切相关的网络可以是两阶段导向型PCA(OPCA),它首先被提出用于音频处理[11]。与PCANet的明显区别在于OPCA不与输出层中的散列和局部直方图耦合。OPCA有着额外的噪声及形变鲁棒性,当然PCANet也吸收了OPCA这一优点,对噪声有着较好的鲁棒性。。最后我们会对PCANet进行一些扩展研究,包括通过线性判别分析来训练卷积核(LDANet)、通过随机初始化的方法来出事PCANet的卷积核(RandNet)。在这项工作中,我们对这些类型的网络与其他现有网络(如ConvNet和ScatNet)进行了广泛的实验和公平比较。我们希望我们的实验和观察能够帮助人们更好地了解这些网络。

B 所做工作

\quad\quad 虽然我们初始的目的是通过构建一个简单的深度模型框架来为大家提供一个横向深度学习模型性能的基本标准,但我们的研究结果会带来各种令人愉快但引人深思的惊喜::这个基本的PCANet框架,在一些主流的数据库上所表现出的优越性能,例如人脸识别、手写字体分类、文本分类等等,已经能和当下相对成熟的深度学习模型相匹敌。以单样本人脸识别为例,在Yale B数据库上达到了99.58%正确率,在AR数据库的光照子集上达到了95%的识别率,在FERET数据库上达到97.25%正确率,在其DUP-1和DUP-2两个子集上分别达到95.84%和94.02%的正确率。通过实验,我们能够充分证明PCANet能够学习得到适合分类的鲁棒特征。PCANet在深度学习和视觉图像识别方面展现出了巨大价值:一方面PCANet能够充当一个简洁但又极具竞争力的深度模型判断标准;另一方面,PCANet之所以能够取得巨大成功,很大程度上得益于其分层级联的特征学习结构。更重要的是,由于PCANet在二值化哈希编码和直方图分块之后只进行一次线性映射,使其能够从数学分析判断的角度论证其有效性。、

级联线性网络结构(PCANet)

A、PCANet的网络结构
在这里插入图片描述
  ( 图 2 ) (图2) (2)
图2是一个典型的PCANet模型,途中只用PCA滤波器核需要从训练样本集中进行学习,我们会依据这个网络结构来详细的介绍各个部分。
输入层:PCANet选取了一个k1k2的窗口(通常选边长为3、5、7个像素正方形窗口)来滑动选取图片的局部特征。
在这里插入图片描述
(1)第一层(PCA):
对于每个像素,我们都在其周围进行一次k1
k2的块采样(这里采样时逐个像素进行的,因此是完全的覆盖式采样),然后收集所有的采样块,进行级联,作为第i张图片的表示

x i , 1 , x i , 2 , ⋯   , x i , m ^ n ^ ∈ R k 1 k 2 x_{i,1},x_{i,2},\cdots,x_{i,\hat{m}\hat{n}}\in R^{k_1k_2} xi,1,xi,2,,xi,m^n^Rk1k2

其中: m ^ = m − [ k 1 / 2 ] , n ^ = n − [ k 2 / 2 ] \hat{m}=m-[k_1/2],\hat{n}=n-[k_2/2] m^=m[k1/2],n^=n[k2/2]

对采样块均值化:
X i ˉ = [ x ‾ i , 1 , x ‾ i , 2 , ⋯ , x ‾ i , m ^ n ^ ] \bar{X_i}=[\overline{x}_{i,1},\overline{x}_{i,2},\cdots,\overline{x}_{i,\hat{m}\hat{n}}] Xiˉ=[xi,1,xi,2,xi,m^n^</

  • 6
    点赞
  • 78
    收藏
    觉得还不错? 一键收藏
  • 5
    评论
评论 5
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值