坐标下降法(Coordinate descent)

最新推荐文章于 2024-06-20 14:23:15 发布

花折泪

最新推荐文章于 2024-06-20 14:23:15 发布

阅读量4.4w

点赞数 28

分类专栏： machine learning 文章标签：机器学习算法

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/u013802188/article/details/40476989

版权

machine learning 专栏收录该内容

20 篇文章 3 订阅

订阅专栏

首先介绍一个算法：coordinate-wise minimization

问题的描述：给定一个可微的凸函数，如果在某一点x，使得f(x)在每一个坐标轴上都是最小值，那么f(x)是不是一个全局的最小值。

形式化的描述为：是不是对于所有的d，i都有

这里的代表第i个标准基向量。

答案为成立。

这是因为：

但是问题来了，如果对于凸函数f，若不可微该会怎样呢？

答案为不成立，上面的图片就给出了一个反例。

那么同样的问题，现在，其中g是可微的凸函数，每一个hi都是凸的？

答案为成立。

证明如下，对每一个y

坐标下降(Coordinate descent)：

这就意味着，对所有的，其中g是可微的凸函数，每一个hi都是凸的，我们可以使用坐标下降寻求一个最小值，我们从一个最初的猜想开始，对k进行循环：

每一次我们解决了，我们都会使用新的值。

Tseng (2001)的开创性工作证明：对这种f（f在紧集上连续，且f到达了其最小值），的极限值，k=1,2,3….是f的一个最小元(minimizer)。

在实分析领域：

随后收敛与x*( Bolzano-Weierstrass)

收敛于f*( monotoneconvergence)

其中：

坐标下降的顺序是任意的，可以是从1到n的任意排列。

可以在任何地方将单个的坐标替代成坐标块

关键在于一次一个地更新，所有的一起更新有可能会导致不收敛

我们现在讨论一下坐标下降的应用：

线性回归：

令，其中，A有p列：

最小化xi，对所有的xj，j不等于i：

解得：

坐标下降重复这个更新对所有的

对比坐标下降与梯度下降在线性回归中的表现（100个实例，n=100，p=20）

将坐标下降的一圈与梯度下降的一次迭代对比是不是公平呢？是的。

其中r=y-Ax。每一次的坐标更新需要O(n)个操作，其中O(n)去更新r，O(n)去计算，所以一圈就需要O(np)，跟梯度下降是一样的。

我们用相同的例子，用梯度下降进行比较，似乎是与计算梯度下降的最优性相违背。

那么坐标下降是一个一阶的方法吗？事实上不是，它使用了比一阶更多的信息。

现在我们再关注一下支持向量机：

SVM对偶中的坐标下降策略：

SMO(Sequentialminimal optimization)算法是两块的坐标下降，使用贪心法选择下一块，而不是用循环。

回调互补松弛条件(complementaryslackness conditions)：

v，d，s是原始的系数，截距和松弛，其中，使用任何的（1）中i使得来计算d，利用（1）（2）来计算2.

SMO重复下面两步：

选出不满足互补松弛的αi，αj

最小化 αi，αj使所有的变量满足条件

第一步使用启发式的方法贪心得寻找αi，αj，第二步使用等式约束。

关注

28
点赞
踩
119

收藏

觉得还不错? 一键收藏
12
评论
坐标下降法(Coordinate descent)

首先介绍一个算法：coordinate-wise minimization问题的描述：给定一个可微的凸函数，如果在某一点x，使得f(x)在每一个坐标轴上都是最小值，那么f(x)是不是一个全局的最小值。形式化的描述为：是不是2对于所有的d，i都有3这里的4代表第i个标准基向量。答案为成立。5这是因为：6但是问题来了，如果对于凸函数f，若不可微该会怎样呢？7答案
复制链接

扫一扫

专栏目录

花折泪 CSDN认证博客专家 CSDN认证企业博客

码龄10年

60: 原创

18万+: 周排名

88万+: 总排名

14万+: 访问

: 等级

1652: 积分

51: 粉丝

52: 获赞

21: 评论

164: 收藏

私信

关注

热门文章

分类专栏

acm 46篇
opencv 1篇
database
machine learning 20篇

最新评论

独立成分分析（Independent Components Analysis）
WangNa434: 写得太好了，请问最后的例子如何实现？？
1008. 数组元素循环右移问题 (20)
qq_36037874: 大佬思路确实厉害。不过前几种用string实现的方式似乎只能处理个位数，无法处理两位数以上的情况吧。而题目要求的是正整数这个域。
1008. 数组元素循环右移问题 (20)
RyanBronx: 太厉害了
坐标下降法(Coordinate descent)
有硬币就是土豪: 剽窃都不注明出处！这些图，公式都是博主自己打的吗
坐标下降法(Coordinate descent)
我的心永远是冰冰哒: 您好，我有一个问题想请教一下，就在开始证明的最后的那个部分(我没法加入图片，图片网址是https://img-blog.csdn.net/20141026151628490?watermark/2/text/aHR0cDovL2Jsb2cuY3Nkbi5uZXQvdTAxMzgwMjE4OA==/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70/gravity/SouthEast），f(y）-f(x)的那一步，我能看懂g(y)>g(x),为什么有h(y_i)>h(x_i),这个是怎么得到的，另外这里的h(x_i)是什么意思，是h(x_i)表示的是一个关于分量x_i的凸函数吗？

最新文章

目录

评论 12

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。