predicting useful neighborhoods for lazy local learning

     predicting useful neighborhoods for lazy local learning

摘要

懒惰局部学习方法在训练分类器时,只利用训练实例与新的测试样本最相关的一个子集。这个方法的目标是使分类器适应测试样本周边的数据的属性。现有方法建立局部模型采用的是距离测试样本严格意义上最近的数据。然而这种方法不能对实际中分类器的好坏取决于选择实例的分布做出合理的解释。然而这种方法不能解释为什么依赖于被选择的训练样本的全分布生成的分类器会成功。与简单的选择测试样本的最近邻不同,我们的方法是预测与测试样本局部模型相关的训练数据的子集。我们发明一种方法来发现查询之间的模式,并且使用压缩感知大规模标签分类得到他们的好的邻居。(我们发明了一个方法,通过压缩感知的大规模多标签分类器发现查询与他们的“好”邻居之间的模式。给定一个新的测试点,通过对训练子集组成和大小的估计来生成一个正确的局部模型。)给定一个新的测试点,我们评估可能产生一个正确局部模型的训练子集的分布和大小。我们用这种方法在数据集SUN和aPascal的分类中实验来证明这个方法比传统全局和局部方法要有优势。

 

1.介绍

尽管学习方法有很多好处,但是大标签数据集也呈现出了新的挑战。除了明显的可扩展性障碍,数据的多样性对学习一个单一的好的全局模型也带来了困难。

此外由于训练点特征空间的分布不均衡,模型容量也将不同。所以如果我们训练一个单一的高容量学习算法,它可能会在这个决策边界(被训练样本密集的填充)附近的部分获得成功,然而在稀疏的特征空间采样区域可能会失败。

局部学习对处理这些挑战提供了一个方向。局部学习关注的是与给定测试样本最相关的数据子集。它能够根据数据局部属性调整学习算法的容量。

在局部学习中,在确定那个训练样本与测试样本最相关的问题上,所有现有的方法依赖一个重要的核心假设:构建一个局部模型最有用的样本是与测试样本最近的这些样本。然而这个核心假设有一个问题,通过把训练点的接近度看做局部学习实用的测度,存在的方法不能构建这些训练点怎样被正确使用的模型。也就是说一个局部的训练模型的相对成功(relative success)是这些被选的数据点分布集合的一个函数,而不是简单的每个查询近邻的单一点对。

基于以上观察,我们提出为局部训练学习一个好的邻居的属性。给定一个测试样本,目标是预测哪个训练子集应该用来训练一个局部模型。 这个预测任务是非凡的:对于一个大标签数据集,候选集合的力量是巨大的,并且我们能观察到最起作用的邻居的相对少的训练样本是已知的。这个问题能以大规模多标签分类的形式被处理,其中,我们能学习一个样本到一个指针向量的映射,这个指针向量指向整个训练集。这个方法的到的邻居子集有两个特点:1.并非严格意义的最近邻排序2.大小有变化。并且通过图像分类实验显示,我们的方法比现有的局部学习方法更有优势。

 

2.相关工作

局部学习算法:懒人局部学习算法与我们的工作最相关。现有的方法主要是如何得到测试样本最近邻的标签样本,并且一般会固定最近邻邻居的个数。然后通过得到的邻居来训练一个局部模型(神经网络,SVM,线性回归)或者学习一个特征空间的转移(线性判别分析)。相反我们的方法是为一个给定的测试样本预测训练样本集合,以便申城具有判别力的模型。

测度学习:测度学习是处理“什么是与测试点相关”的问题。测度学习方法最优化一个距离函数的参数以便最好地满足训练数据的已知相似约束。与我们工作最相关的是学习局部测度。

分层分类:这个方法是将决策点生成一棵树,每个节点上仅考虑一个标签子集。在预测时间会减少计算的复杂度。分层方法预执行标签组来隔离,并且对所有的测试样本应用同样的分类器;而懒人局部学习在测试时间预测哪个测试样本集合与新输入的测试样本是相关的。

为训练样本加权:我们的问题可以看成是决定哪些训练样本是最可信的。加权的样本能反映标签确信度,处理不平衡的训练集,或者降低奇异值的影响。然而我们以在线,依靠查询的方式预测有用的邻居。旨在找到一个能经得起局部模型考验的训练数据子集。

主动学习:主动学习旨在确定信息量大的无标签的训练样本。目标是当训练一个全局分类器时,最小化标记努力。相反,本文的目的是忽略那些与新输入的测试样本无关的带标签的训练点。

 

3.方法

文章的目的是,对于给定的测试样本预测出一系列训练实例,这些实例组成一个有效的邻居,从而用作局部分类器学习。文章中用“邻居(neighborhoods)”这个词表示训练数据的一个子集,最优子集并不是严格的距离最近的点。

文章中的方法分三个阶段:

1)得到训练数据的邻居(离线)。

2)从单独的样本到有效邻居学习一个映射(离线)。

3)得到一个模型用来推断新样本的邻居,训练出一个局部分类器,预测测试标签(在线)。

3.1 得到训练neighborhoods

是一组具有M类标签的训练样本。表示一个d维特征空间的向量,表示目标类标签。对于这些给定的样本,首先要得到一个训练邻居集合。每个训练邻居包含一个单独的实例,配上一个M维的指示向量,如果则表示出现在的邻居中,否则。这个目标指示向量的维度是M,可利用的训练样本的总个数。我们得到N个这样的实例—邻居对,N<<M

在得到的过程中,主要的想法是对每个得到一系列的候选邻居,然后计算其预测训练数据标签的成功率,最后选出最好的邻居。

对于,首先在特征空间中计算它到其余M-1个训练图像的距离(作者方法用的是欧氏距离,但是特定的核方法和测度学习也可以用到这里)。然后,对于每一个可能邻居的大小为,我们从所有训练图像中得到了一个大小为k的邻居。这些邻居有两个要求:(1)距离越近越可能被选到;(2)类别标签的组成在邻居中是平衡的。特别的是,对于每一个可能的类别标签,文章中选取个不重复的训练数据,这些数据的权值和到的距离是反相关的。对于每个k的值重复采样S次,那么每个就得到个候选邻居。

接着,对每个候选的邻居,学习一个局部模型。文中用SVM分类器,一是因为他们训练效率高,二是因为低容量的模型更适合稀疏。为了确定最好的邻居,令作为大小为k的邻居的s-th候选分类器的后验概率,这些后验概率使用邻居中的点通过Platt scaling来计算。得到最好的k值。最后,得到了一个邻居对,是被采样的邻居指示向量,大小为,并且此时的后验概率最大。一般情况下,更高的S值和更密集的k采样会得到更好的结果。

3.2 用压缩感知的方法预测邻居

3.1中已经得到实例—邻居对,下一个目标是学习一个函数获得他们的关系。对于给定的新的测试样本,这个函数必须能够评估一个合适的邻居。最直接的办法可能是为每个学习一个二值决策函数。但是会有一系列的问题,一是需要M个分类器,这样数据量太大;二是不能表示邻居数据之间的相关性,这些相关性对于测试工作是有益的;三是对于这样的解决方式,目前不清楚如何正确获取negative数据。

文中提出将这个学习任务看成一个大规模多标签分类器的问题,在多标签分类中,一个数据可能包含多个标签。在本文中,作者的想法是预测哪些训练数据属于测试数据的邻居,而不是预测哪些标签和测试数据有关联。

因此文中提出了一个基于压缩感知的大规模多标签分类方法。利用压缩感知,可以将高维稀疏的目标邻居有效的学习一个预测函数来估计所有应的邻居。第一步,对于N个训练邻居中个每一个邻居,利用一个随机转换方程,把它从M维的邻居向量投影到一个更低的维度空间,这里是一个的随机矩阵,D是被压缩的指针的维度。然后,利用学习到的回归函数将原始的特征映射到投影值中。并且得到一系列回归函数通过最小化压缩指针向量空间中的损失。给定一个新的数据同样的回归方程就可以把数据映射到已经降维的空间中。最后,作者用一个标准的重建算法把指针向量从被压缩的空间恢复到M维的向量。

 文中使用贝叶斯多标签压缩感知,使用将一个M维的指针向量有效的恢复。l为非零个数。

3.3推断一个新的测试数据的邻居

利用上面的步骤对于给定一个新的数据,可以得到一个M维的向量,向量中的值都是实数,并且对于每一类标签数据属于的邻居的相关确信度是一致的。文中从中提取邻居的大小估计和邻居的成分。

为此我们执行3.1节所定义的训练步骤。一,利用中确信度排序的值得到大小从到一系列的候选邻居,每一次要保证类别标签的平衡性。对于每个k,文中对每一个标签用个确信度最高数据来表示。这样,每一个被引用的训练数据在标签都有一个类别标签。类似之前的做法,对每个候选预测邻居训练一个局部分类器。

本文中将中元素的确信度作为权重用在SVM中,对于每一次查询,用所有M个数据训练一个模型,通过指标向量调节数据的影响程度。然而,我们发现这种方法的效果有些偏差,原因可能是在试验中用了高度不平衡的数据集。

 

 

 

 

 

参考文献

[1]R. Agrawal, A. Gupta, Y. Prabhu, and M. Varma. Multi-label learning with millions of labels: Recommending advertiser bid phrases for web pages. In WWW, 2013.

[2]C. Atkeson, A. Moore, and S. Schaal. Locally weighted learning. AI Review, 1997.

[3]A. Bellet, A. Habrard, and M. Sebban. A survey on metric learning for feature vectors and structured data. CoRR,abs/1306.6709, 2013.

[4]B. Gong, K. Grauman, and F. Sha. Connecting the dots with landmarks: Discriminatively learning domain-invariant features for unsupervised domain adaptation. In ICML, 2013.

[5]A.Kapoor and P. Jaina nd R. Viswanathan. Multilabel classification using Bayesian compressed sensing. In NIPS, 2012.

[6]M. Lapin, M. Hein, and B. Schiele. Learning using privileged information: SVM+ and weighted SVM.Neural Networks, 53, 2014.

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值