度量相似性数学建模_Active learning-基于稀疏建模的不确定性主动学习算法02

最新推荐文章于 2023-04-20 17:43:31 发布

Darren zzz

最新推荐文章于 2023-04-20 17:43:31 发布

阅读量320

点赞数

文章标签：度量相似性数学建模

本文链接：https://blog.csdn.net/weixin_31289551/article/details/112194621

版权

详细参见：G. Wang, J. Hwang, C. Rose, and F. Wallace, “Uncertainty-based active learning via sparse modeling for image classification,” IEEE Transactions on Image Processing, vol. 28, pp. 316–329, Jan 2019.

由图可知，首先已标记的部分数据被用于训练一个多类别分类器，然后该分类器将被用于预测未标记数据的标签，基于分类器的预测，通过高斯核实现的稀疏建模被用于样本选择，紧接着被选择的样本将被标记并从未标记数据中移出，循环上述步骤，每次循环结束后，分类器将在更新后的已标记数据集上重新训练，最后主动学习性能将在一个独立的测试数据集上得到评估。

在本文中，出于计算复杂度的原因，支持向量机（Support Vector Machine, SVM）将被用于主动学习算法中作为分类器。当然，其他分类器也同样可行，如卷积神经网（Convolution Neural Networks, CNN）等。

多类别支持向量机（Multi-Class SVM）

对于多类别分类问题而言，我们将采用 one vs. the rest策略训练SVM分类器支持向量机。假设有k个类别，第k类被看作正类（或负类），剩下的样本将被看作负类（或正类）。因此得到第 k个分类器的损失函数如下所示：

其中

是第k个分类器训练得到的权重，

是正则参数，

是第i个样本

的标签。得到最终的SVM分类器分类结果通过以下等式表示：

其中

表示测试样本

对应第k个类别的预测

不确定性度量（Uncertainty Measure）

在主动学习算法中，不确定性采样就是从未标记样本集中选择最不确定的样本进行标记。对于基于SVM算法的分类器，普遍采用最有可能的两个预测（the first two most likely predictions）的距离作为不确定性度量。

其中

和

是两个最有可能的预测类别。

基于稀疏建模的样本选择策略（Sample Selection via Sparse Modeling）

通过分类器获得的不确定性得分，信息量最丰富的样本（the most informative sample）将被选择进行查询。在传统的不确定性采样方法啊中，不确定性得分最高的

（batch size）个样本将被挑选出来。但是，往往不确定性大的样本相似程度也较大，造成信息冗余。为了解决这一问题，稀疏建模将被引入采样策略中（如下图）。

具体而言，就是选择尽可能少的样本来包含尽可能多的信息。因此，修改后的优化函数如下所示：

其中

是初始不确定性得分，

是修改后的不确定性得分，

表示非零元素的个数，

为相似度矩阵。但是，在处理高维数据时，数据点往往是稀疏的，欧式距离难以很好表达样本间相似性，因此，

被重新定义为：

其中

为第j个样本的近邻指标集（neighbor index set）

Darren zzz

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
度量相似性数学建模_Active learning-基于稀疏建模的不确定性主动学习算法02

详细参见：G. Wang, J. Hwang, C. Rose, and F. Wallace, “Uncertainty-based active learning via sparse modeling for image classification,” IEEE Transactions on Image Processing, vol. 28, pp. 316–329, Jan 2019...
复制链接

扫一扫