Summary of Boosted Tree and Factorization Machines

最新推荐文章于 2024-02-02 20:47:23 发布

jony0917

最新推荐文章于 2024-02-02 20:47:23 发布

阅读量509

点赞数 1

本文链接：https://blog.csdn.net/gaofeipaopaotang/article/details/81392449

版权

Boosted Tree

Definition:

$\widehat y=\sum_{k=1}^{K}f_k(x)$

In which $f_k(x)$ is one of K regression trees.

Loss:

$Loss=\sum_{i=1}^{n}L(y_i, \widehat y_i)$

Add some regularization:

$Loss=\sum_{i=1}^{n}L(y_i,\widehat y_i) + \sum_{k=1}^{K}\Omega(f_k)$

Additive Training:

$\widehat y^{(1)} = 0$

$\widehat y^{(t)} = \widehat y^{(t-1)} + f_t(x)$

$Loss^{(t)}=\sum_{i=1}^{n}L(y_i, \widehat y_i^{(t)}) + \sum_{k=1}^{t}\Omega(f_k)$

$=\sum_{i=1}^{n}L(y_i, \widehat y_i^{(t-1)}+f_t(x_i))+\sum_{k=1}^{t-1}\Omega(f_k)+\Omega(f_t)$

$=\sum_{i=1}^{n}L(y_i, \widehat y_i^{(t-1)}+f_t(x_i))+\Omega(f_t)+C$

$\approx\sum_{i=1}^{n}[ L(y_i,\widehat y_i^{(t-1)})+f_t(x_i)\frac{\partial L}{\partial \widehat y_i^{(t-1)}}+\frac{1}{2}f_t^{2}(x_i)\frac{\partial L^2}{\partial \widehat y_i^{(t-1)}}]+\Omega(f_t)+C$

$=\sum_{i=1}^{n}[ L(y_i,\widehat y_i^{(t-1)})+f_t(x_i)G_i+\frac{1}{2}f_t^{2}(x_i)H_i]+\Omega(f_t)+C$

$=\sum_{i=1}^{n}[f_t(x_i)G_i+\frac{1}{2}f_t^{2}(x_i)H_i] + \Omega(f_t) + C'$

Loss at time t is:

$Loss^{(t)}=\sum_{i=1}^{n}[f_t(x_i)G_i+\frac{1}{2}f_t^{2}(x_i)H_i] + \Omega(f_t) + C'$

Use:

$f_t(x)=w_{q(x)}, q:R^d\rightarrow\{1,2,...,M\}, w_i \in R$

$\Omega(f)=\frac{1}{2}\lambda\sum_{i=1}^{M}w_j^{2}+\gamma M$

We get:

$Loss^{(t)}=\sum_{i=1}^{n}[f_t(x_i)G_i+\frac{1}{2}f_t^{2}(x_i)H_i] + \Omega(f_t) + C'$

$=\sum_{i=1}^{n}[w_{q(x_i)}G_i+\frac{1}{2} w_{q(x_i)}^2H_i]+\frac{1}{2}\lambda\sum_{j=1}^{M}w_j^{2}+\gamma M+C'$

With $I_j=\{i|q(x_i)=j\}$ :

$\sum_{i=1}^{n}w_{q(x_i)}G_i=\sum_{j=1}^{M}[w_j\sum_{i\in I_j}^{}G_i]$

$\sum_{i=1}^{n}\frac{1}{2}w_{q(x_i)}^2H_i=\sum_{j=1}^{M}w_j^2\sum_{i \in I_j}^{}\frac{1}{2}H_i$

So:

$Loss^{(t)}=\sum_{j=1}^{M}[w_j\sum_{i\in I_j}G_i+w_j^2\sum_{i\in I_j}\frac{1}{2}H_i+\frac{1}{2}\lambda w_j^2]+\gamma M + C'$

$=\sum_{j=1}^{M}[w_j\sum_{i\in I_j}G_i+\frac{1}{2}w_j^2(\lambda+\sum_{i\in I_j}H_i)]+\gamma M + C'$

With $G_j'=\sum_{i\in I_j}G_i, H_j'=\sum_{i\in I_j}H_i$ :

$Loss^{(t)}=\sum_{j=1}^{M}[w_jG_j'+\frac{1}{2}w_j^2(\lambda+H_j')]+\gamma M + C'$

Finally:

$w_j^*=argmin(w_jG_j'+\frac{1}{2}w_j^2(\lambda+H_i'))=-\frac{G_j'}{\lambda+H_i'}$

$Obj^{(t)}=min(Loss^{(t)})=-\frac{1}{2}\sum_{j=1}^{M}\frac{G_j'^2}{H_j'+\lambda}+\gamma M + C'$

So for each iteration t of training, greedily seach for a regression tree $f_t(x_i)=w_{q(x_i)}$ with $w_j=-\frac{G_j'}{\lambda+H_i'}$ with minumum $Obj^{(t)}$ and add it to model.

Factorization Machines

$y=w_0+\sum_{i=1}^{n}w_ix_i+\sum_{i=1}^{n-1}\sum_{j=i+1}^{n}<\boldsymbol{v}_i,\boldsymbol{v}_j>x_ix_j$

In which

$w_0\in R,\boldsymbol{w}\in R^{n},\boldsymbol{v}\in R^{n\times k}$

$<\boldsymbol{v}_i,\boldsymbol{v}_j>=\sum_{l=1}^{k}v_{il}v_{jl}$

jony0917

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
Summary of Boosted Tree and Factorization Machines

Definition:yˆ=∑k=1Kfk(x)y^=∑k=1Kfk(x)\widehat y=\sum_{k=1}^{K}f_k(x) In which fk(x)fk(x)f_k(x) is one of K regression trees.Loss:Loss=∑i=1nL(yi,yˆi)Loss=∑i=1nL(yi,y^i)Loss=\sum_{i=1}^{n}L(...
复制链接

扫一扫