凸优化笔记(1) —— 基本概念

最新推荐文章于 2024-09-11 22:05:47 发布

Jesse He

最新推荐文章于 2024-09-11 22:05:47 发布

阅读量5.5k

点赞数 7

文章标签：凸优化笔记

本文链接：https://blog.csdn.net/qq_35826213/article/details/86670690

版权

凸优化笔记 —— 基本概念之凸集

1. 数学优化
基本概念

基本准备

本科没学过凸优化，想趁着还不是太忙，恶补下数学知识，终究是绕不过去的山。应该会不定时的更新凸优化、矩阵论的相关笔记吧，PRML、计算机视觉、概率图模型希望以后也能写一写笔记。

推荐的书籍：
英文版《Convex Optimization》
中文版(译本)《凸优化》(清华出版社)

推荐视频：
前中科大凌青老师 (现在好像去了中山大学了)
视频在线地址：b站
网盘下载地址：http://pan.baidu.com/s/1slmHdTz 密码：9h61 (感谢，大智能时代’s Archiver上的分享)

纸质版书的话，英文版有点贵，中文版还好。PDF的话，上面我都给了链接了，英文版是作者的主页，可以免费下载最新版的PDF，中文版好像不是太新。视频的话，在线可以去b站上，下载的话也有网盘地址。不得不说b站真是个神奇的网站，很多斯坦福公开课我也是在上面看的，但是好像现在CS231N找不到。咳咳，扯远了~

另外，为了节省写博客的时间，书上的概念、公式会以截图的形式贴到博客上，重点在于自己的理解，和重点知识的归纳。书归正传，开始基本概念的笔记吧。

1. 数学优化

优化，即在可行解的范围内，找出最优解。用数学的形式可表达如下：
$minimize\: \: f_0\left ( x \right )\\ subject \:to\: \: f_i\left ( x \right )\leq b_i, \: \: i = 1,\cdots ,m$

，其中，向量x是问题的优化变量， $f_0$ 是目标函数， $f_i$ 是约束函数。关于这个公式具体的定义如书上所言：

同样，也给出了最优解的概念。另外，目标函数和约束函数并不一定是单一的，都是可以存在多个的。

其实，对于数学优化问题，具体来点讲，比如在用做物理实验或者各种实验获得的数据，来拟合这些数据所表征的函数。假设，这些数据表征的是一个二次函数，即 $y=ax^2+bx+c$ ，在计算机上去拟合只能是去，先有个a、b、c的初始值，带入上述这个形式中，看与真实值的误差多大，然后向着是误差减小的地方来更新a、b、c的值，(有点类似于反向传播)。在这其中，误差就是目标函数，而限制条件，可能就是这些数据都是非负的，等等。优化问题的求解就是在一定的精度内，满足此一实例。就如上面这个问题，当误差在某一阈值之内的时候，求解就算完毕。

希尔伯特说过，问题可被描绘出来，就解决的了80%。而如果优化问题，能被描述出来还能被转换成凸优化问题，那么问题就解决了90%(凌青老师的话)

优化的分类

分类大概为：凸优化与非凸优化，线性优化与非线性优化，（针对目标函数）光滑与非光滑，连续与离散，多目标与单目标等。其中凸优化与非凸优化是界定优化问题较为准确地分界。粗略来讲，凸问题是较为简单的问题，非凸问题是较为难的问题。

基本概念

2.1 凸优化问题

什么是凸优化呢，简单来讲，就是上述数学优化问题中，目标函数是凸函数，约束问题属于凸集，或者是由若干凸函数组成的。那么，什么又是凸函数和凸集呢？

2.2 线性函数与凸函数

① 线性函数的定义：
$f_i\left ( \alpha x+\beta y \right )=\alpha f_i\left ( x \right )+\beta f_i\left ( x \right )$
其中， $\alpha,\: \beta \in R$

② 凸函数的定义：
$f_i\left ( \alpha x+\beta y \right )\leq \alpha f_i\left ( x \right )+\beta f_i\left ( x \right )$ 其中， $\alpha,\: \beta \in R^+，且\alpha+\beta =1$

可以看出，线性函数属于凸函数，也就是说凸优化是比线性优化更为一般的问题。

2.3 凸集

仿射集。

第一种定义：

要注意，这个定义中需要是过集合内任意两点的直线，还在集合内。那，什么是直线呢？数学表达如下：
在这里插入图片描述
当把， $\Theta$ 设定在[0,1]之间时，直线就变成了了线段。下面这张图就很好地解释了这件事， $\Theta$ 的绝对值越来越大时，点就会离 $\Theta$ 为0的点越来越远，而 $\Theta$ 属于[0,1]时，也就只能包含 $x_1$ 和 $x_2$ 之间的点了。