度量相似性数学建模_Active learning-基于稀疏建模的不确定性主动学习算法02

详细参见:G. Wang, J. Hwang, C. Rose, and F. Wallace, “Uncertainty-based active learning via sparse modeling for image classification,” IEEE Transactions on Image Processing, vol. 28, pp. 316–329, Jan 2019.

5c0fc9ff701caa0593a4ae1a96c5ab68.png

由图可知,首先已标记的部分数据被用于训练一个多类别分类器,然后该分类器将被用于预测未标记数据的标签,基于分类器的预测,通过高斯核实现的稀疏建模被用于样本选择,紧接着被选择的样本将被标记并从未标记数据中移出,循环上述步骤,每次循环结束后,分类器将在更新后的已标记数据集上重新训练,最后主动学习性能将在一个独立的测试数据集上得到评估。

在本文中,出于计算复杂度的原因,支持向量机(Support Vector Machine, SVM)将被用于主动学习算法中作为分类器。当然,其他分类器也同样可行,如卷积神经网(Convolution Neural Networks, CNN)等。

多类别支持向量机(Multi-Class SVM

对于多类别分类问题而言,我们将采用 one vs. the rest策略训练SVM分类器支持向量机。假设有k个类别,第k类被看作正类(或负类),剩下的样本将被看作负类(或正类)。因此得到第 k个分类器的损失函数如下所示:

其中

,
是第k个分类器训练得到的权重,
是正则参数,
是第i个样本
的标签。得到最终的SVM分类器分类结果通过以下等式表示:

其中

表示测试样本
对应第k个类别的预测

不确定性度量(Uncertainty Measure

在主动学习算法中,不确定性采样就是从未标记样本集中选择最不确定的样本进行标记。对于基于SVM算法的分类器,普遍采用最有可能的两个预测(the first two most likely predictions)的距离作为不确定性度量。

其中

是两个最有可能的预测类别。

基于稀疏建模的样本选择策略(Sample Selection via Sparse Modeling

通过分类器获得的不确定性得分,信息量最丰富的样本(the most informative sample)将被选择进行查询。在传统的不确定性采样方法啊中,不确定性得分最高的

(batch size)个样本将被挑选出来。但是,往往不确定性大的样本相似程度也较大,造成信息冗余。为了解决这一问题,稀疏建模将被引入采样策略中(如下图)。

a921c8c9b52a9ce6ce8128d29dd9b536.png

具体而言,就是选择尽可能少的样本来包含尽可能多的信息。因此,修改后的优化函数如下所示:

其中

是初始不确定性得分,
是修改后的不确定性得分,
表示非零元素的个数,
为相似度矩阵。但是,在处理高维数据时,数据点往往是稀疏的,欧式距离难以很好表达样本间相似性,因此,
被重新定义为:

其中
为第j个样本的近邻指标集(neighbor index set)
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值