0、摘要
本文准备用CNNs获得场景多特征
keywords:scene recognition; convolutional networks; spatial pyramid;
linear classifiers; explicit kernel maps
1、介绍
近几年的标准的做法是提取几个局部patch描述,编码成高维向量,pool them into an image-level signa-
tures,池化成图像水平标注,应用标准的分类算法,可能与多特征结果做对比。广泛使用的是sift bag of words 用空间金字塔、稀疏编码、fisher vecters。
[20,9,2]Part-based 方法是:低层的sift描述和中层的特征,获得更多的信息。不能针对形变的图像。基于部分的方法与局部特征编码相结合、
[10,23,18,7]CNNs方法是:缺点是需要大量的训练数据和需要精细调节训练参数,对于不同的数据有高度区分的不同特征。
本文,CNNs训练额外的数据,用两种不同的算法去提取特征在一个标准的线性SVM多特征视觉识别框架,用于场景识别。高层卷积网看起来像是part-based 方法,我们应用识别框架对于四个标准数据集对于场景识别和获得完全识别精度,超过当前的最高结果,四个数据集都是的。
2、相关工作
FV编码是当前图像分类局部特征的最高水平了,在sift描述空间中做GMM模型,有更高维数的图像。
实际上,imagenet分类挑战已经被CNN占领了,Krizhevsky等人做的卷积神经网络结构是5层卷基层,2层全连接层有4096个神经元,然后是输出层。目前CNNs,除了用在训练imagenet数据外,也被用于普遍的图像特征提取。几个工具存在对于这个目
CNN Features for Scene Recognition-论文笔记
最新推荐文章于 2023-02-11 18:15:40 发布