机器学习--坐标轴下降法

zipper112

于 2021-05-20 09:02:38 发布

阅读量859

点赞数 3

分类专栏：机器学习

本文链接：https://blog.csdn.net/qq_36102055/article/details/117060248

版权

机器学习专栏收录该内容

26 篇文章 1 订阅

订阅专栏

推导

坐标轴下降法的思路就是每次选择一个维度，固定其他维度，然后使选择的这个维度达到最优，然后反复的这么做直到收敛。

比如有一个函数 $g(x_1, x_2, ..., x_n)$ ，我们想用坐标轴下降的对其进行优化。
那么就有：
第一步，先固定一个维度，比如说固定 $x_2$ ，此时除了 $x_2$ 以外，其它的数字都是常量。
第二步，我们对 $x_2$ 求导，然后令导数等于零求出一个极大值。
第三步，如果没有收敛就重复1,2步，否则收敛结束算法。

接下来我们使用坐标轴下降法来求解LASSO。
设有n个样本 ${(x_1, y_1), (x_2, y_2), ..., (x_n, y_n)\}$ ，我们使用简单线性模型+L1正则。
其中每个样本 $x_i$ 有m个特征。
得到
$\sum_{i = 1}^n[(\sum_{j = 1}^mx_{ij}w_j + b) - y_i]^2 + \lambda \sum_{i = 1}^m|w_i|$
其中w为权重，b为偏置, $\lambda$ 为惩罚系数。
我们首先固定某个维度 $w_l$ ，然后进行求导
$\frac{dL(W,b) }{dw_l}=2\sum_{i = 1}^n[(\sum_{j = 1}^mx_{ij}w_j + b) - y_i]x_{il} + \frac{d(\lambda \sum_{i = 1}^m|w_i|)}{dw_l}$

我们对式子进行整理。把所有的 $w_l$ 项进行合并。
$\frac{dL(W,b) }{dw_l}=2\sum_{i = 1}^n[(\sum_{j \ne l}^mx_{ij}w_j + b)+x_{il}w_l - y_i]x_{il} + \frac{d(\lambda \sum_{i = 1}^m|w_i|)}{dw_l}$
进一步合并
$\frac{dL(W,b) }{dw_l}=2\sum_{i = 1}^n[(\sum_{j \ne l}^mx_{ij}w_j + b) - y_i] + 2w_l\sum_{i = 1}^nx_{il}^2 + \frac{d(\lambda \sum_{i = 1}^m|w_i|)}{dw_l}$
然后可以发现，前两项中，有两个常数，我们设
$2\sum_{i = 1}^n[(\sum_{j \ne l}^mx_{ij}w_j + b) - y_i]=a\\ 2\sum_{i = 1}^nx_{il}^2=b$
就有
$\frac{dL(W,b) }{dw_l}=a + w_lb + \frac{d(\lambda \sum_{i = 1}^m|w_i|)}{dw_l}$
此时就需要分情况讨论

当 $w_l > 0$ 时
$\frac{dL(W,b) }{dw_l}=a+w_lb+\lambda$
当 $w_l < 0$
$\frac{dL(W,b) }{dw_l}=a + w_lb-\lambda$
当 $w_l = 0$ ，此时不可导，我们认为结果应该介于上两者之间
$w_lb-\lambda \leq \frac{dL(W,b) }{dw_l}\leq a+w_lb+\lambda$

我们令 $\frac{dL(W,b) }{dw_l}=0$ 得
$w_l=\frac{-a-\frac{d(\lambda \sum_{i = 1}^m|w_i|)}{dw_l}}{b}$

当 $w_l>0$ 此时 $\frac{-a-\lambda}{b} >0$ ，由于 $b > 0$ 所以此时 $\lambda+ a<0$
有 $w_l=\frac{-a-\lambda}{b}$
当 $w_l<0$ 此时，由于 $b > 0$ 所以此时 $\lambda>0$
有 $w_l=\frac{-a+\lambda}{b}$
当 $w_l=0$ 时，此时 $-\lambda \leq a\leq \lambda$
$w_l=0$

然后就可以更新 $w_l$ 了，反复的迭代下去直到收敛。
从上式也可以看出，当a落到了某个区间时 $w_l$ 就会被赋值为0，从而达到了稀疏的效果。

zipper112

关注

3
点赞
踩
4

收藏

觉得还不错? 一键收藏
1
评论
机器学习--坐标轴下降法

推导坐标轴下降法的思路就是每次选择一个维度，固定其他维度，然后使选择的这个维度达到最优，然后反复的这么做直到收敛。比如有一个函数 g(x1,x2,...,xn)g(x_1, x_2, ..., x_n)g(x1,x2,...,xn)，我们想用坐标轴下降的对其进行优化。那么就有：第一步，先固定一个维度，比如说固定x2x_2x2，此时除了x2x_2x2以外，其它的数字都是常量。第二步，我们对x2x_2x2求导，然后令导数等于零求出一个极大值。第三步，如果没有收敛就重复1,2步，否则收敛结
复制链接

扫一扫

专栏目录