1. sparse coding 最近很火
04年之前
- Total Variation Image Denoising,L. Rudin, S. Osher, E. Fatemi, 1992; (l1-norm of the gradient of the image)
- Denoising by Soft Thresholding,D. Donoho, 1995; (li-norm)
- LASSO, R. Tibshirani, 1996; (l1-norm of the regression coefficient)
- Sparse representation in Visual Cortex (V1) direction selectivity, B. Olshausen, D. Field, 1996; (Gabor filter)
- JPEG standards: JPEG (Local DCT), JPEG 2000 (Wavelet); (l1-norm of the DCT/Wavelet transform coefficient)
- ....
Candes和Tao的文章就信号的稀疏性和l1范数之间的关系给出了明确地定理。一个很粗略的解释如下
扯了这么多。从上面的那些例子中,可以得出
为了能获得比较好的解,人们需要x的先验知识。而稀疏性便是众多先验知识中,最为主要的一种。这种降维主要表现于虽然原始信号x的维度很高,但实际的有效信息集中在一个低维的空间里。这种性质使得不适定的问题变得适定(well-posed),进而获得“好的解”成为可能。
至于应用广泛,则是因为现实当中,很多问题都是稀疏或者近似稀疏的。比如
设一个N维信号的稀疏度为K (K<<N)(非零元素位置与幅值未知),对其进行m 采样(m<N),如果m和k之间满足一定的关系,那么通过最小化l1范数可以精确恢复原信号。Candes的博士老板Donoho,将这个过程成为Compressed Sensing。有了这两边奠基性的文章,压缩感知,稀疏优化等便井喷式的发展起来,直到今日。
扯了这么多。从上面的那些例子中,可以得出
稀疏表达的意义在于 降维。
为了能获得比较好的解,人们需要x的先验知识。而稀疏性便是众多先验知识中,最为主要的一种。这种降维主要表现于虽然原始信号x的维度很高,但实际的有效信息集中在一个低维的空间里。这种性质使得不适定的问题变得适定(well-posed),进而获得“好的解”成为可能。
至于应用广泛,则是因为现实当中,很多问题都是稀疏或者近似稀疏的。比如
- 图像在小波变换,梯度算子下是(近似)稀疏的;
- 分类过程中需要输入在不同的基下面表达不同,这是稀疏性;
- Deep Learning在不断地提出feature的过程也是稀疏性;
- 推荐系统背后是因为用户产品评价是一个低秩矩阵;
- 。。。
大概以上
2.sparse coding 与点云分类联系
点云分类,无非和图像分类一样,先提取特征,再训练,再分类。但是,有了sparse coding 以后呢,是先提取特征,再训练字典dictionary,然后再分类测试。多了一步,训练字典。在我的理解,这个字典和训练的特征,建立了某种关系:即稀疏表达。我们就是要求这个稀疏表达,再分类的时候就可以,利用稀疏表达得出测试的结果了。对于图像来说,特征的维度很高(有SIFT 特征),需要降维。但是可不可以这么想,为什么不直接拿特征通过Linear SVM,进行分类呢?
优点:速度真的很快
分类精度不低
在点云分类中,提取的特征维度就远不如图像了,维度一般最多不过几百,但是点云的数量确实是很多的。如果也要用sparse coding来做,训练词典的时间很长,而且可能会丢失有用的信息,最重要的是分类的结果并不理想,亲测不如:直接用Linear SVM。
3.写着篇博客也是希望大家一起想,看是否我理解的有偏差。
谢谢。