self paced learning(自步学习)

最新推荐文章于 2023-08-31 21:11:09 发布

selous

最新推荐文章于 2023-08-31 21:11:09 发布

阅读量6.7k

点赞数 2

分类专栏：机器学习文章标签： selfpace learning 自步学习

本文链接：https://blog.csdn.net/selous/article/details/78144377

版权

机器学习专栏收录该内容

25 篇文章 1 订阅

订阅专栏

参考论文地址

self-paced learning 是基于curriculum learning发展而来的.相比于curriculum learning中需要将所有的样本人为的进行”难易”程度的排序,* self-paced learning更进一步的通过添加一个正则项(SP-regularizer),来实现模型自动挑选简单的,也就是易于分类的样本(high-confidence samples) * 本篇博文就是类似翻译孟老师这篇论文的部分证明内容,记录一下自己对SPL的理解,当然也有一些不理解的.

Loss Function

min w, v \in [0, 1] n E (w, v, λ) = \sum i = 1 m (v i L (y i, h (x i, w)) + f (v i, λ))

$\min_{w,v\in[0,1]^n}E(w,v,\lambda) = \sum_{i=1}^m(v_iL(y_i,h(x_i,w))+f(v_i,\lambda))$
其中

L $L$ 函数是传统的损失函数,

vi $v_i$ 就是权值,其可能的取值为{0,1},也就是代表了是否选择该样本做训练;而

f(vi,λ) $f(v_i,\lambda)$ 就是SP-regularizer,通过这个regularizer来控制v的取值

SP-regularizer

可以看出在SPL中最重要的就是SP-regularizer的设计.当然论文中也提到了SP-regularizer需要满足的约束条件:
首先定义:

v * (l, λ) = a r g min v \in [0, 1] (v l + f (v, λ))

$v^*(l,\lambda) = arg\min_{v\in[0,1]}(vl+f(v,\lambda))$
1.

f(v,λ) $f(v,\lambda)$ is convex with

v∈[0,1] $v\in[0,1]$ ,凸函数,优化方便
2.

v∗(l,λ) $v^*(l,\lambda)$ 关于

l $l$ 递减,并且满足

lim l \to 0 v * (l, λ) = 1; lim l \to \infty v * (l, λ) = 0

$\lim_{l\rightarrow0}v^*(l,\lambda) = 1;\lim_{l\rightarrow\infty}v^*(l,\lambda) = 0$
3.

v∗(l,λ) $v^*(l,\lambda)$ 关于

λ $\lambda$ 递增,并且满足

lim λ \to \infty v * (l, λ) \leq 1; lim λ \to 0 v * (l, λ) = 0

$\lim_{\lambda\rightarrow\infty}v^*(l,\lambda) \le 1;\lim_{\lambda\rightarrow 0}v^*(l,\lambda) = 0$

解释一下为什么这样约束:第一点: $v^*$ 表达的意思对于该样本是否选择(0:不选择,1:选择).而它的取值是最小化损失函数得到的.
第二点:明白了 $v^*$ 的含义就应该明白条件二表达的意思是如果某个样本的损失 $\lambda$ 小,那么就选择该样本,high-confidence samples,也就是损失较小的样本.而条件三表达的意思就是,随着 $\lambda$ (“age”)的增大,会有更多的样本被选入到训练中.

而目前的研究中有几种提出的regularizer分别是,Hard,Linear,Mixture.

这里写图片描述

optimizer

Majorization Minimization Algorithm(MM)

方法:将一个复杂的优化目标,通过迭代,不断的替换成一个简单的优化目标,进行优化.
Problems Description:a minimization problem with objective $F(w)$ , given an estimate $w^k$ at the $k^{th}$ iteration
Two Steps:
1.Majorization step:

F (w) \leq Q (w | w k)

$F(w) \le Q(w|w^k)$
2.Minimum step:

w k + 1 = a r g min w Q (w | w k)

$w^{k+1} = arg \min_wQ(w|w^k)$

SPL

定义 $v*(l,\lambda)$ 的积分:

F λ (l) = \int l 0 v * (l, λ) d l

$F_\lambda(l) = \int_0^lv^*(l,\lambda)dl$
首先要明白这个积分就是v*l,也就是损失函数E的前一半(去掉SP-regularizer)

然后因为 $v^*(l,\lambda)$ 关于l是递减的,所以它的积分 $F_\lambda(l)$ 关于l是凹的.所以:

F λ (l (w)) \leq Q λ (w | w *) = F λ (l (w *)) + F' λ (l (w *)) (l (w) - l (w *)) . = F λ (l (w *)) + v * (l (w *), λ) (l (w) - l (w *)) .

$F_\lambda(l(w)) ≤ Q_\lambda(w|w^∗)\\ = F_\lambda(l(w^∗))+F'_\lambda(l(w^*))(l(w)−l(w^∗)).\\ =F_\lambda(l(w^∗))+v^∗(l(w^∗),\lambda)(l(w)−l(w^∗)).$

优化的过程即为:
1.优化v

v * (l i (w k), λ) = min v i \in [0, 1] v i l i (w k) + f (v i, λ)

$v^*(l_i(w_k),\lambda) = \min_{v_i\in[0,1]}v_il_i(w^k)+f(v_i,\lambda)$
2.优化loss

w k + 1 = a r g min w \sum i = 0 m Q λ (w | w *) = a r g min w \sum i = 1 m F λ (l (w *)) + v * (l (w *), λ) (l (w) - l (w *))

$w^{k+1} = arg\min_w\sum_{i=0}^mQ_\lambda(w|w^*) \\ = arg\min_w\sum^{m}_{i=1}F_\lambda(l(w^∗))+v^∗(l(w^∗),\lambda)(l(w)−l(w^∗))$
因为对于第k次迭代的时候

w∗ $w^*$ 是已知的,所以

w k + 1 = a r g min w \sum i = 0 m v * (l (w *), λ) l (w)

$w^{k+1} = arg\min_w\sum_{i=0}^mv^∗(l(w^∗),\lambda)l(w)$

整个过程也就是先优化sp-regularizer,求出权值,然后再优化带权损失函数,求出参数.然后一直迭代.

论文中提到SPL的优化和MM的优化很像,其实在我看来,这种优化方式更像是EM,将 $v$ 作为隐变量,先优化v,然后再优化带权值(v)的loss function,然后一直迭代

代码实现SPL

上面的优化过程就是代码实现的过程.虽然看起来比较繁琐,但是实现起来是很简单的.要明确一点的是,SPL不是模型,只是一种不同的带权loss函数,所以在实现之前你需要选择一个model
在spl的原始论文中,作者就提到了一个简单的实现办法,也就是hard-regularizer.
$\lambda = k$

while(true): #首先计算所有样本的v l =[l(xi) for i in sample] """ if l<=k: v = 1 else: v = 0 """ v = torch.le(l,k) #计算损失函数, loss = -torch.mean(v*l) #更新模型参数 ... #模型稳定时,更新k if loss < update_threhold: k = update(k)

selous

关注

2
点赞
踩
31

收藏

觉得还不错? 一键收藏
2
评论
self paced learning(自步学习)

参考论文地址self-pace learning 是基于curriculum learning发展而来的.相比于curriculum learning中需要将所有的样本人为的进行”难易”程度的排序,* self-pace learning更进一步的通过添加一个正则项(SP-regularizer),来实现模型自动挑选简单的,也就是易于分类的样本(high-confidence samples) *
复制链接

扫一扫

专栏目录