卷积特征提取—处理大型图像_卷积网络提取大图和小图-CSDN博客

本文链接：https://blog.csdn.net/u013884378/article/details/21700363

本文探讨了在处理大型图像时如何利用卷积特征提取。通过将图像分块并应用训练好的网络，得到大量的特征矩阵。由于矩阵过大，不适合直接用于分类，文章提到了自然图像的静态特性，即不同部分的统计特性相同，这为卷积提供了理论基础。此外，介绍了卷积操作的本质，以及在MATLAB中如何进行卷积运算。最后，文章指出池化（mean pooling或max pooling）是降低特征维度的有效方法，但其理论依据仍然需要深入理解。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

网址;http://deeplearning.stanford.edu/wiki/index.php/UFLDL教程

仿真表明，如果将整幅图像运用imresize函数进行压缩，则训练样本过少。如果采用图像分块的方式，获取了大量的样本，并且确定了网络参数。那接下来如何运用这个参数去提取整幅图像的特征呢？

教程中举了一个例子。96*96的图像，假设训练时采用的8*8的patch，且隐含层节点100个。（我突然想到，关于稀疏自编码的栈式编码方式我貌似没有理解，以前的理解是错误的）。按教程中的方式来看，96*96的图像将会被分成（96-8+1）*（96-8+1）,即89*89块，每一块的大小是8*8。将这些分出来的块输入到已经训练好的网路中，输入是：64*（89*89），W1是100*64，W1*输入，则隐含层的输出是100*（89*89），这也是教程中所说的将得到100个集合，每个集合中含有89*89特征的含义所在。

这样问题有来了，每一幅图像都得到100*（89*89）的特征矩阵，这个太大了，如果用这个去训练分类器显然是不可能的。那我们怎么办呢？未完待续。。。

在这里插一段图像的静态特性。

教程中说，自然图像具有静态特性，即图像某一部分的统计特性和其他部分是相同的，这是用某一部分学习出的特征（即权值）去卷积整幅图像，对整幅图像进行特征表示的理论基础。所以特地查了下到底什么是图像的统计特性。看了一些PPT，图像的统计特性是指图像信号（亮度、色度或其抽样值）本身或对他们进行某种方式处理（比如计算像素的均值，中值，方差等等）以后的输出值的随机统计特性。看了一篇英文文章：

Torralba A, Oliva A. Statistics of natural image categories[J]. Network: computation in neural systems, 2003, 14(3): 391-412.

该文章探讨了自然图像的统计特性，并使用这些统计特性对目标和场景进行分类。讨论了二阶统计特性（second-order statistics）与图像类别，场景规模和目标的相关关系。We propose how scene categorization（场景分类） could be computed in a feedforward manner in order to provide top-down（自顶向下） and contextual（上下文信息） information very early in the visual processing chain（视觉处理链）。实验表明low-level features is benefit to 识别问题。同时，提出简单的统计特性可以用来预测图像中是否