Linear Spatial Pyramid Matching using Sparse Coding for Image Classification (阅读)

最新推荐文章于 2022-07-14 23:15:00 发布

langb2014

最新推荐文章于 2022-07-14 23:15:00 发布

阅读量2.2k

点赞数

分类专栏：论文阅读

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/langb2014/article/details/48676987

版权

论文阅读专栏收录该内容

18 篇文章 0 订阅

订阅专栏

论文和源码地址：http://www.ifp.illinois.edu/~jyang29/ScSPM.htm

先看下这个主页中的SPM和ScSPM的对比：

SPM的方法

ØStep 1: local descriptor extraction

ØStep 2:vector quantization (e.g.k-means)

ØStep 3:hierarchical average pooling

ØStep 4:nonlinear SVM

ScSPM的方法

ØStep 1: local descriptor extraction

ØStep 2:sparse coding (无监督词典)

ØStep 3:hierarchical max pooling(提取最大的稀疏系数)

ØStep 4:linear SVM

=====================================================================

首选是决策函数：

z是基于描述符编码的某种统计数据得到的特征向量。然后通过下面的z的求解需要用到聚类标识符U=[u1,…,uM]T，通过pooling function z=F(U)得到。

下面就是SC取代了VQ对SIFT特征进行编码的公式：

（采用的是固定V，优化u）而这样做的好处：1，SC约束宽松一些，因而有更低的重建误差；2，稀疏性可捕捉更显著的特征；3，图像块是稀疏信号

接下来就是用max pooling function取代averaging function

文中说max这样做视觉特征好，并通过连结图像不同位置与不同分辨率的空间塔式表示得到特征向量z。

然后这张Ii的图像用Zi表示，看一下SPM kernel函数：

代入到决策函数中得到：

====================================================================

论文提到成功的3个点：

1、SC比VQ的quantization errors小；

2、sparse coding适合图像数据；

3、max pooling在局部信息方面的强大；

所以说成功还是取决于SC和Max部分，也就是这篇论文重点。

====================================================================

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Linear Spatial Pyramid Matching using Sparse Coding for Image Classification (阅读)

论文和源码地址：http://www.ifp.illinois.edu/~jyang29/ScSPM.htm
复制链接

扫一扫

专栏目录

博客等级

码龄10年

331
原创

1197
点赞

3498
收藏

2480
粉丝

关注

私信

热门文章

分类专栏

Computer Vision 26篇
Machine Learning 32篇
Deep Learning 40篇
caffe 97篇
数学知识 21篇
C++（STL） 55篇
C++设计模式 25篇
C++(Boost) 12篇
Mxnet 1篇
Torch 3篇
TF 20篇
CUDA编程 17篇
图像处理 2篇
Linux 50篇
C/C++ 72篇
内存篇 18篇
openCV 3篇
Python 75篇
论文阅读 18篇
windows 10篇
问题集锦 41篇

最新评论

linux的mount bind命令
2301_81992104: 您好，可以请教点云模型部署的问题吗？有偿丰厚，期待您的回复，谢谢
windows磁盘上没有足够空间完成此操作
2401_82791231: 对象不支持此操作是磁盘坏了吗？
解决conda的“Solving environment: failed”问题
iGChao: 终于解决了
什么是end-to-end神经网络？
坠金: 感觉最后一个分类不太对吧，前面说end2end指的是不需要人为干预，不需要手动设计特征，最后一个分类更类似一阶段二阶段
glog简单分析
Eternal Code: 引用「其实我不明白为什么这样做, 如果每次打印一条日志都要分配一个这么大的缓冲区,而其实很多时候都是用不了」使用了线程局部存储，也就是每个线程会有一个这么大的缓冲区

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。