FPGA视觉从入门到放弃——稀疏编码的原理与简单应用

本文链接：https://blog.csdn.net/shadow_guo/article/details/51730644

先试一下它的效果。根据MNIST公开的分类器 1，误分类率小于0.6%的与卷积网络相关的方法主要有两种：2008年的“无监督稀疏特征 + 支持向量机”和起始于1998年的“卷积网络”。两者的特征提取分别基于稀疏编码和卷积神经网络。

1. 问题

不同的尺度和视角拍摄同1个正方体。FPGA中物体检测采用滑动窗口也能跑得飞起，所以问题来了~

滑动窗口尺寸多尺度，能否识别不同视角的正方体？
滑动窗口尺寸不变，能否识别不同尺度和视角的正方体？

2. 原理

系数图像 $F_j$ 包括输入图像块的基函数 $\vec {\omega_j}$ 的系数 $a_j$ 。

自编码网络只有1个隐含层，输入层到隐含层用于编码，隐含层到输出层用于解码。网络训练的目标为对编码后的输入解码的结果尽可能逼近原来的输入。

F ⃗ (x, y) = (F 1 (x, y), F 2 (x, y), . . ., F K (x, y)) = a r g m i n a ⃗ (| | \sum j = 1 K ω ⃗ j a j - P (x, y) | | + β S (a ⃗))

$\begin{align} &\vec F(x,y)=\left(F_1(x,y),F_2(x,y),...,F_K(x,y)\right) \\&= {argmin}_{\vec a}(||\sum^K_{j=1}\vec \omega_ja_j-P(x,y)||+\beta S(\vec a)) \end{align}$

其中， $K$ 为隐含层节点个数(不包括偏置项)， $\vec \omega$ 为隐含层到输出层的连接权重， $\vec a$ 为隐含层输出， $P(x,y)$ 为在输入图像坐标系中的中心位置为 $(x,y)$ 的块去中心化的像素值， $S(\vec a)$ 为令隐含层节点输出稀疏的正则项， $\vec F(x,y)$ 为目标函数最小时，输入图像的每个图像块的隐含层的线性激活函数的输出。

有实验证明视觉皮层中复杂细胞的行为可以通过局部极大操作描述，并且人类会用同样的规则考虑位置的不确定性 2。

最后的特征向量变为：

f I = (F m a x 1 (R 1), . . ., F m a x K (R 1), . . ., F m a x 1 (R M 2), . . ., F m a x K (R M 2)))

$f_I=\left(F_1^{max}(R_1),...,F_K^{max}(R_1),...,F_1^{max}(R_{M^2}),...,F_K^{max}(R_{M^2}))\right)$
其中，

M2 $M^2$ 为1幅图像的块个数，

F1 $F_1$ ~

FK $F_K$ 分别为第

1−K $1-K$ 个隐含层节点的输出，

Fmax $F^{max}$ 和

Fmin $F^{min}$ 分别为每个隐含层节点的极大和极小值。

F m a x j (R i) = m a x x, y \in R i F j (x, y) F m i n j (R i) = m i n x, y \in R i F j (x, y)

$\begin{align} &F_j^{max}(R_i)=max_{x,y\in R_i}F_j(x,y) \\&F_j^{min}(R_i)=min_{x,y\in R_i}F_j(x,y) \end{align}$

这里， $(x,y)$ 是属于非重叠的图像块 $R_i$ 的像素点，但并不一定是图像块 $R_i$ 的中心像素点。不过原文在计算图像块的均值时，定义 $(x,y)$ 为中心位置的像素坐标。

该方法提取特征的流程如下：

这里写图片描述

稀疏编码获得能够表示数字0~9的基函数(文中提到“每个基函数由 $13\times 13$ 个像素组成，为简化，基函数个数等于每个基函数的像素数(169)”)；
对图像中每个像素点用基函数“滤波”，每个基函数对应1幅 $27\times 27$ 的激活输出图像；
每个激活输出图像分成9个区域，计算每个区域的极大极小值，并排列成行向量。

解决空间相关性时，有个问题可以考虑：
a) 原文的方法符合生物视觉皮层的单细胞模型属性。虽然前面的特征提取方法只是与稀疏编码的基函数的组合，但猫的电极实验得到的模型却是激活输出后的局部极大操作；
b) 局部感受野提取原图像的特征时有空间相关性。所以，整个图像按像素滤波一定可以保留足够多的特征，但这些特征冗余得有点多。

那么，多放1个空间相关性在激活输出的前面会怎么样？ (￣ε(#￣) 无非是冗余的特征变少，测试错误率往下轻微一跌。原文这么做只是更有力地证明了局部极大操作对特征输出的贡献。