笔记：Active Learning with Cross-class Knowledge Transfer

最新推荐文章于 2024-03-01 17:12:07 发布

置顶 Yvonne_fan

最新推荐文章于 2024-03-01 17:12:07 发布

阅读量1k

点赞数 1

分类专栏：迁移主动学习文章标签：迁移主动学习交叉类算法优化

本文链接：https://blog.csdn.net/choubaguaihailan/article/details/71083048

版权

迁移主动学习专栏收录该内容

2 篇文章 0 订阅

订阅专栏

基于交叉类知识迁移的主动学习算法研究

Active Learning with Cross-class Knowledge Transfer

Introduction
Algorithm
Optimization
Evaluation

Introduction

首先我将介绍一下这篇文章的主要背景知识介绍，分为三部分，分别为迁移主动学习，待解决问题，基于属性的零样本学习。

Transfer Active Learning迁移主动学习

TAL一般性描述

上图介绍了迁移主动学习的一般形式，迁移主动学习是一种联合算法，主要由迁移学习和主动学习结合在一起。
迁移学习一般是在想要进行一些目标操作的样本域（称为目标域）当中没有足够多甚是没有标签样本，此时会从一些与这个目标域类似的源域当中来学习一些信息帮助目标域的操作。主要是从源域到目标域的知识迁移。
主动学习背景基本相似，也是在想要进行一些目标操作的样本域（称为目标域）当中没有足够多甚是没有标签样本，此时在同一个样本域中挑选尽量少的未标签样本出来进行人工标签，从来达到一个尽量高的分类精度。
两种算法都是用来解决在目标域当中标签样本不足的问题。

Problem setting in this paper待解决问题

Assume that the source domain and target domain don’t have the same classes, the classes in source domain are related but different from target domain classes, i.e., cross-class transfer active learning.

上图中右面部分为鮟鱇鱼，下面为长耳跳鼠，如在目标领域中有类似这样的分类类别，但是源域当中很难获取到已有的标签样本。
考虑到类中迁移的信息，用与其相近的类来进行迁移，比如说鱼和老鼠。

Attribute-based Zero-shot Learning基于属性的零样本学习

Without any labeled data.
Some attributes shared between classes are used as the bridge for knowledge transfer.
Comparing the similarity between the attribute representation of the source domain and target domain.

类的属性表示，通过比较类属性表示的相似性来进行学习的迁移。
1.没有标签样本
2.在一些类之间共享的一些属性帮助了迁移学习。
3.对比两个域之间的类属性的相似性来进行知识迁移。
举例子，像AwA数据集，就是包含了用属性来描述的图片信息

Algorithm

算法部分将首先介绍一下算法中各种符号的字符表示

Problem Definition and Notation

文章符号表示说明
值的注意的是：这篇文章中设定了源域和目标域当中没有类交叉，就是说源域类集合和目标域类集合的交集为空。
并且对于源域和目标域当中的所有类，都有已知的一个类的属性表示向量。

下面介绍本篇文章的主要算法

Cross-class Transfer Active Learning

The objective function
fc is the classifier for class c, l(a, b) is the loss function, and R is the regularization term for classifier parameters.

the prediction of the single-label classification is obtained by:

In active learning, the uncertainty of an unlabeled sample x is computed using the outputs of all classifiers, i.e., we have

首先考虑一种泛化的情况，写出的目标函数都是泛化形式。
考虑的是1-vs-rest的问题设置，对于每一个类都有其对应的分类函数f。
主动学习中在目标域中选择最大不确定性的样本出来进行学习。

1式中每个类的分类器都是单独学习的，源域当中的样本知识就浪费了，用基于属性的零样本学习来进行知识迁移。

The classifier function

In this paper, we consider the linear classifiers.

Lack the label information for target domain classes, can not directly use Eq.(1) for training.
the classifier parameters for class c can be constructed by the attributes and the generating function as:

那怎么引入基于属性的学习呢；我先介绍一下分类函数的形式。
考虑线性分类器，如上面的第一个等式，由等式1中可以得到源域类的分类器，但是目标域当中没有标签信息，无法得到分类器。怎么办呢？
此时，提出学习一个生成函数来生成分类器参数。
分类函数参数是由类的特性来决定，所以给定类的特性的描述，完全可以假设存在转换函数能够将类的特性转换为分类器参数。
根据属性学习，用属性来特征化类的特性。
所以类c的分类器参数能够用类c的属性和生成函数可以用属性来生成，如上面第二个公式。

Model

模型中最关键的主要是生成函数。
用源域中的标签样本和目标域中的训练样本，用目标域的类的属性，可以直接生成目标域的分类器。就是这篇文章和基于属性的学习的最大不同点。
后面可以直接进行主动学习的选取，迭代步骤直至满足条件。
用属性和生成函数为桥梁，源域类当中的知识可以尽量多的迁移到目标域类当中。

Learning Generating Function

Use the labeled data in Ds and Dtr.

we adopt the linear function for g:

仅仅使用源域和目标域训练集当中的所有标签样本。
用源域标签样本和目标域训练样本来学习生成函数。
并且结合半监督学习理论，考虑训练集中的无标签样本。
其中alpha表示超参数，Theta是样本x的权重，L,U分别是目标域训练样本中的标签和未标签样本。
为了使目标函数更好分化，g采用线性函数，V是生成函数因子。

Use the squared loss for L and the ridge regularization for R:

使用平方误差损失和岭回归在一般化的目标函数中，可以得到上面公式5的形式。
V在源域和目标域中均有出现，就可以在桥接域和迁移域的类知识。

Optimization

5式中有两个待优化的矩阵变量。
用迭代策略更新参数，固定一个更新另一个直至收敛。
首先固定Yt
这里写图片描述

Yt固定，目标函数可以近似为一个关于V的函数。
公式6
Where:
这里写图片描述
因为上式可导，直接求式6对V的导数，后面通过将导数置0，可以得到V的最优值。

其中，F范数表示矩阵元素绝对值的平方和再开平方。

其后，固定V
这里写图片描述

固定V，可以得到目标函数是行级的关于Yjt的函数。

Because we have no label information for unlabeled data, the predictedlabels by Eq. (10) are the pseudo labels.

更多准确的标签样本能够更好的优化V，所以重复上述两个步骤迭代直至收敛。
可以通过生成函数G和属性A获得目标域上的分类器，包含了从源域类中迁移到目标域类的知识。

Uncertainty Sampling

The Best-vs-Second Best strategy
先用已经学习出的分类器来对目标域未标签样本进行分类，可以得到样本j对任意一个类c的打分，通过将所有的打分进行排序，可以最高得分属于的类c1和次高得到分别属于的类c2，如果这两个得分很相近，则样本j可能属于类c1，也可能属于类c2，则样本的不确定性就会比较高；反之，当c1与c2的得到相差很大时，则样本很有可能属于c1，则样本的不确定性较低。

Suppose ojc1 and ojc2 are the largest and second largest outputs.
用exp函数来保证结果的正值化，C1和C2越接近，样本的不确定性越高。

多分类问题，不期望选择太多的同类样本进行标签，
在这篇文章中，为了保证样本选择的均衡性，每次样本选择的时候，对于每种类别c，只考虑被10式标签为c类的样本，就是Yjc=1；用等式11中的选择k个样本进行标记，最终就是有Ct*k个样本选择出来。

Other Issues

迭代更新V和Yt，需要初始化其中一个参数，而Yt是伪标签，不好初始化，所以选择用源域样本初始化V。

Another issue is the weights theta for all samples in target domain.
另外一个问题是目标域的样本权重。

后面生成Yt，再一步步迭代。Sigma是一个标量因子，这样每轮迭代中都会更新。

样本权重基于样本的不确定性，用不确定性来衡量，确定样本的权重接近于1，不确定样本的权重接近0。所有目标域的标签样本权重设为1。

Algorithm

这里写图片描述

Experiment

dataset

这里写图片描述
第一个数据集对于每个类有一个85维的属性表示
第二个数据集，每个图片有一个64维的属性表示，用同一类图片的平均属性表示来生成类的属性表示。
SUN，每个图片有一个102维的属性表示，用同一类图片的平均属性表示来生成类的属性表示。

Baseline

random sampling (RD)
uncertainty sampling (US)attribute-based
zero-shot learning method (AZ)

RD，随机选择样本
US，不确定选择样本，都用svm做基础分类器。
AZ，只有属性学习。

Implementations

这里写图片描述
可以看到这篇文章中的算法的分类精度远高于其他算法。

并且在不同的数据集上算法达到80%的精度所需要的迭代次数也较少。

Yvonne_fan

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
笔记：Active Learning with Cross-class Knowledge Transfer

基于交叉类知识迁移的主动学习算法研究Active Learning with Cross-class Knowledge TransferIntroductionAlgorithmOptimizationEvaluation
复制链接

扫一扫