ICCV13,统计与机器学习部分
大多数是前天晚上读的- -还是有好多下载不到。
这次笔记包括一个来自清华的Transfer Learning的PCA。
还有一些有趣的距离学习和众多的子空间分解的工作。
从人人搬运比较麻烦啊。。
__73 Group Norm for Learning Structured SVMs with Unstructured Latent Variables Daozheng Chen, UMD; Dhruv Batra*, Virginia Tech; Bill Freeman, "MIT, USA"
之前11年好像有个不使用非结构隐变量的文章。。
__94 Curvature-aware Regularization on Riemannian Submanifolds Kwang In Kim*, MPI for Informatics; James Tompkin, MPI Informatik; Christian Theobalt, MPI fuer Informatik
高贵冷艳的黎曼流形,谁有兴趣给我科普么
__258 Learning Graph Matching for Category Modeling from Large Scenes Quanshi Zhang*, University of Tokyo; Xuan Song, University of Tokyo; Xiaowei Shao, University of Tokyo; Ryosuke Shibasaki, University of Tokyo; Huijing Zhao, Peking University
东大的工作
306 Bayesian Robust Matrix Factorization for Image and Video Processing Naiyan Wang*, HKUST; Dit-Yan Yeung, HKUST
港大的工作,看看这个是干嘛的
矩阵分解(Y= UV问题)可以用在structure from motion(SfM) and collaborative filtering上。不过不得不说SFM其实运算效率上嘈点颇多。优化算法确实容易做但是实用瓶颈其实都在快速Match上吧。。
这个工作是基于作者自己在ECCV12的时候有人发布的概率框架的MF
PRMF认为残差是l1分布的,而系数是高斯分布的(没有说反么。。)
作者把残差记成tau, 在ECCV的时候,他认为u,v,tau和y构成了一个朴素贝叶斯网络,然后用EM求解了这个问题。
这篇文章的作者在之前那个比较简单的网络上有增加了假设,变成了一个更精细的贝叶斯网络
比如他认为U和V的均值向量以及协方差矩阵的逆存在一个协同分布的先验。。
并且将原来拉普拉斯噪声的假设,增强为噪声可能是一个拉普拉斯分布加上一个高斯分布。。。
好像可以用来做impainting...
360 Transfer Feature Learning with Joint Distribution Adaptation Mingsheng Long*, Tsinghua University; Jianmin Wang, Tsinghua University; Guiguang Ding, Tsinghua University; Philip Yu, University of Illinois at Chicago
一作目测清华的博士,后面全是老师,孙老师组的工作
试图在Transfer Learning一个分类问题的时候,同时考虑样本的分布和边缘分布。
(其实对这种比较线性的分类没太多好感。。。不过可以降维之后用别的学习算法反正)
假设feature空间是X,X_s表示source domain
X_s是target domain,分类器可以用Q(y|x)来表示,另外本文考虑
一个边缘分布P(x) (x \in X)。并且假设P_s(x_s)和P_t(x_t)不一致
并且分类器Q_s(y_s|x_s)和Q_t(y_t|x_t)也不一致,
考虑学习一个好的特征表述来获得一个比较好的Q_t(y_t|x_t)
主要想法是优化一个feature的变换T
min_T ||E_{P_s(x_s)} [ T(x_s) ] - E_{P_t(x_t)} [T(x_t)] ||
+ || E_{Q_s(y_s|x_s)} [ y_s | T(x_s) ]
- E_{Q_t(y_t|x_t)} [ y_t | T(x_t) ] ||
第一项是在各自的边缘分布下,变换后的平均feature的误差
第二项是我没有看明白x_s。。。感觉作者好像有笔误,应该要分别在y和x上求期望吧
然后作者先考虑了PCA,PCA可以写成如下优化问题
max tr( A'XHX'A ), s.t. A'A = I
其中H矩阵是为了让X减掉自己的均值H = I -1/n
然后这个问题可以通过求解 XHX' A = A Phi来解决
Phi是对角阵。直接特征值就可以了
不过PCA显然不能,作者假设把X_s里的n_s个数据
带上X_t 里面的n_t个数据,按顺序写在一起
然后希望优化下面这个目标
|| E_{1<i<n_s} [ A' x_i] - E_{n_s+1<j<n_s+n_t} [A' x_j]||
这个东西也可以写成tr(A' X M_0 X' A)的形式
这个东西表示做完变换之后再两个数据集上的分划,
作者希望这个误差尽可能小
对于分类问题,作者在各个类上面定义这个M_0,记成一个M_c
这样的话这个优化问题可以写成
min sum tr( A' X M_c X' A ) + lambda ||A||_F^2
s.t. A'XHX'A = I
后面还加了个l2的规范。这个很容易解啊
看上去简单优雅的方法,不过不了解之前的工作就不乱评论了。
__442 Dynamic Structured Model Selection David Weiss*, University of Pennsylvania; Benjamin Sapp, Google; Ben Taskar, University of Washington
482 Structured learning of sum-of-submodular higher order energy functions Alex Fix, Cornel; Thorsten Joachims, Cornell; Sam Park, Cornell; Ramin Zabih*, Cornell University
submodular function是个什么东西。。
这篇文章希望将GraphCut拓展到可以支持高阶factor的情况
submodular function:一个定义在离散二进制变量上的2^V -> R的函数f,满足
f(S交T) + f(S并T) <= f(S) + f(T),
f(S) = sum f_c ( S 交 C )
C被称为一个clique。作者说最小化这样一类函数以前需要O(n^6)的时间。|C|<=2的时候就可以用Graph Cut了。
这篇基本就是介于两者之间的。。。中间穿插大量信息学竞赛内容还有什么增量式广度优先搜索那是什么。。。
看这个做出来GrabCut的效果还没有今年一篇One Cut好。。
__484 What Is the Most Efficient Way to Select Nearest Neighbor Candidates for Fast Approximate Nearest Neighbor Search? Masakazu Iwamura*, Osaka Prefecture University; Tomokazu Sato, Osaka Prefecture University; Koichi Kise, Osaka Prefecture University
641 Alternating Regression Forests for Object Detection and Pose Estimation Samuel Schulter*, TUGraz; Christian Leistner, Microsoft; Paul Wohlhart, TU Graz; Peter Roth, ; Horst Bischof, Graz University of Technology
这篇之前提过了,相关的东西有空看一下吧
__642 Linear Sequence Discriminant Analysis: A Model-Based Dimensionality Reduction Method for Vector Sequences Bing Su*, Tsinghua University; Xiaoqing Ding, Tsinghua University
__930 Robust Matrix Factorization with Unknown Noise Deyu Meng*, Xi'an Jiaotong University; Fernando de la Torre, Carnegie Mellon University
__957 Recursive Estimation of the Stein Center of SPD Matrices and its Applications Hesamoddin Salehian*, University of Florida; Guang Cheng, ; Baba Vemuri, "University of Florida, USA"; Jeffrey Ho, University of Florida
__968 Manifold based Image Synthesis from Sparse Samples Hongteng Xu*, Georgia Tech; Hongyuan Zha, Georgia Tech
988 From Point to Set: Extend the Learning of Distance Metrics Pengfei Zhu, The Hong Kong Polytechnic University; Lei Zhang*, The Hong Kong Polytechnic University; Wangmeng Zuo, Harbin Institute of Technology; David Zhang, The Hong Kong Polytechnic University
港科的工作,
把point-to-point distance拓展到Set-to-set
以及发展了
PSDML point to set distance metric learning
SSDML set to set distance metric learning
并且用这个工作结合最近邻方法就可以做一些分类的事情
他说的Set其实就是一个Hull的概念而已,包括affine hull 和一个加权系数带上下界的Reduced affine hull, 以及covex hull 和Reduced Convex hull,D上定义的Hull可以记为H(D)
作者给出的p2s dis其实就是
min || x - H(D) ||
Hull的时候H(D) = D alpha
作者说可以用岭回归去解,不过这样不能保证||alpha||<=sigma哟
另外作者说推广来说还可以考虑用一个投影阵对特征空间进行投影的情况
min || P( x - H(D)) ||
这样也等价于一个马氏距离。。
然后作者又推广出了s2d dis
d(D1,D2) = min || H(D_1) - H(D_2)||
然后作者开始推导这两个度量下面的学习问题,
可以变成一个QP,照理说这样的话这个模型的强度可以达到和SVM类似
其实很不错的工作,将度量学习+最近邻的方法与SVM联系上了。
1010 Joint Learning of Discriminative Prototypes
and Large Margin Nearest Neighbor Classifiers(Discriminative Metric and Prototype Learning)
Martin Kstinger*, Graz University of Technology; Peter Roth, ; Horst Bischof, Graz University of Technology
看摘要直观来说,区别于KNN用了所有的数据找近邻,作者找了一些Prototype,这样效率就提高很多了,并且同时作者还加了一些度量学习的手段。
YY一下如果这个做得好的话加上那些支持Hammming距离的binary feature不就屌炸天了轻松做什么支持100000类分类的分类器这种。。。
今天时间不多了先码以后再看吧。。
1082 Distributed Low-rank Subspace Segmentation(Divide-and-Conquer Subspace Segmentation) Ameet Talwalkar*, UC Berkeley; Lester Mackey, Stanford University; Yadong MU, Columbia University; Shih-Fu Chang, Columbia University; Michael Jordan, Berkeley
目测好像这篇最早是他们NIPS的一个workshop。。。iccv submit的时候名字还是和那个workshop一样的。。后来觉得太假了现在换了名字。。
一个带分治的低秩分解?
目测核心算法挺好写的,要用的时候再看吧
__1405 Dynamic Label Propagation for Semi-supervised Multi-class Multi-label Classification Bo Wang*, York University; John Tsotsos, "York University, Canada"
__1420 Frustratingly Easy NBNN Domain Adaptation Tatiana Tommasi*, IDIAP Martigny ; Barbara Caputo,
目测这个工作是在H.Daum一篇叫做Frustratingly Easy Domain Adaptation的基础上做的(摘要声称只有10行代码就可以到state-of-art的神奇工作)。因为名字只多了牛逼的近邻这么一个单词。。
1503 Correlation Adaptive Subspace Segmentation by Trace Lasso Canyi Lu*, National University of Singapo; Jiashi Feng, NUS; Zhouchen Lin, Peking University ; Shuicheng Yan, "NUS, Singapore"
新加坡国立的工作,目测还包括了一个信科过去的实习生。
也是做子空间分解的。使用了一种新的规范叫做Trace Lasso
Omega = || X Diag(w) ||
数据不相关,在X'X = I的时候会退化为l_1
当各个维度比较相关的时候会变为l_2
是一种很有趣的组稀疏约束,反正这个到最后会导致
X矩阵是分块对角的,所以在子空间分解的时候天然适用
1504 Correntropy Induced L2 Graph for Robust Subspace Clustering Canyi Lu*, National University of Singapo; Zhouchen Lin, Peking University ; Shuicheng Yan, "NUS, Singapore"
这个组好机智。。。介绍同上一篇文章
优化函数是
min sum( 1-exp(-E_ij^2 / 2simga^2 ) ) + lambda ||Z ||
s.t. E = X - XZ
给子空间分解换了个损失函数(上一篇换的是约束)
后面的不太想看了。。
__1647 Robust Dictionary Learning by Error Source Decomposition Zhuoyuan Chen*, Northwestern University; Ying Wu, Northwestern University
__1941 Class-Specific Simplex-Latent Dirichlet Allocation for Image Classification Mandar Dixit*, UC San Diego; Nikhil Rasiwasia, Yahoo Research; Nuno Vasconcelos, "UC San Diego, USA"