一些零碎的知识点

最新推荐文章于 2024-07-21 19:18:55 发布

lynn_1900

最新推荐文章于 2024-07-21 19:18:55 发布

阅读量131

点赞数

分类专栏：机器学习文章标签：机器学习支持向量机 svm

本文链接：https://blog.csdn.net/lynn_1900/article/details/106721506

版权

机器学习专栏收录该内容

11 篇文章 0 订阅

订阅专栏

文章目录

一些零碎的知识点

一些零碎的知识点

知识点一：Lagrange对偶性

参考李航老师的《统计学习方法》

原始问题

给定凸优化问题
$\begin{aligned} \min_{x}\quad &f(x) \\ s.t.\quad &g_{i}(x) \leq 0,\ i=1,\cdots,m \\ & h_{j}(x) = 0,\ j=1,\cdots,n \end{aligned}$

其中 $f (x)$ 和 $g_{i}(x)$ 都是 $\mathbb{R}^n$ 上的连续可微的凸函数，约束函数 $h_{j}(x)$ 是 $\mathbb{R}^n$ 上的仿射函数。当 $f (x)$ 是二次函数，约束函数 $g_{i}(x)$ 和 $h_{j}(x)$ 是仿射函数时，上述问题称为凸二次规划问题。

构造Lagrange函数
$L(x,\lambda, \mu) = f(x) + \sum_{i=1}^{m}\lambda_{i}g_{i}(x) + \sum_{j=1}^{n}\mu_{j}h_{j}(x)$
其中， $\lambda_{i}\geq0,\mu_{j}$ 是拉格朗日乘子。

则上述优化问题等价于
$\min_{x}\max_{\lambda\geq0,\mu} L(x, \lambda, \mu)$
事实上
$\begin{aligned} &\quad\min_{x}\max_{\lambda\geq0,\mu}\quad L(x, \lambda, \mu) \\ &=\min_{x}\left(f(x)+\max_{\lambda\geq0,\mu}\left(\sum_{i=1}^{m}\lambda_{i}g_{i}(x) + \sum_{j=1}^{n}\mu_{j}h_{j}(x)\right)\right) \\ &=\min_{x}\left(f(x)+ \begin{cases}0, & g(x)\leq0,\ h(x)=0 \\ \infty, & otherwise \end{cases} \right) \\ &=\min_{x}\ f(x)\\ &\quad\ \ s.t.\ g_{i}(x)\leq0,\ i=1,\cdots,m \\ &\qquad\quad\ \ h_{j}(x)=0,\ j=1,\cdots,n \end{aligned}$
对偶问题

原始问题是 (primary problem)：
$\min_{x}\max_{\lambda\geq0,\mu} L(x, \lambda, \mu)$
对偶问题 (duality problem) 是：
$\max_{\lambda\geq0,\mu}\min_{x} L(x, \lambda, \mu)$
原始问题和对偶问题的关系

定理1 (弱对偶性, weak duality)： 若原始问题和对偶问题都有最优值，则
$d^{*} = \max_{\lambda\geq0,\mu}\min_{x}\ L(x, \lambda, \mu) \leq \min_{x}\max_{\lambda\geq0,\mu}\ L(x, \lambda, \mu) = p^{*}$
推论1： 设 $x^*$ 和 $(\lambda^*,\mu^*)$ 分别是原始问题和对偶问题的可行解，并且 $d^*=p^*$ ，则 $x^*$ 和 $(\lambda^*,\mu^*)$ 分别是原始问题和对偶问题的最优解。

强对偶性 (strong duality)：
$p^{*}=d^{*}$
在强对偶成立的情况下，可以通过求解对偶问题来得到原始问题的解。

强对偶性成立的性质

设 $x^*$ 和 $(\lambda^*,\mu^*)$ 分别是原始问题和对偶问题的最优解，则
$d^* = \min_{x} L(x,\lambda^*,\mu^*) \leq L(x^*,\lambda^*,\mu^*) \leq \max_{\lambda\geq0,\mu} L(x^*,\lambda,\mu) = p^*$
结合强对偶性知
$p^*=d^*=L(x^*,\lambda^*,\mu^*)$
强对偶性成立的条件

Slater 条件是指不等式约束条件是严格可行的，即存在 $x$ 满足：
$g_{i}(x) < 0,\ i=1,\cdots,m$
KKT条件：
$\begin{aligned} \nabla_{x}f(x^*) + \sum_{i=1}^{m}\lambda_{i}^{*}\nabla_{x}g_{i}(x^*) + \sum_{j=1}^{n}\mu_{j}^{*}\nabla_{x}h_{j}(x^*) = 0 \\ (互补松弛条件)\ \lambda_{i}^{*}g_{i}(x^{*}) = 0,\ i=1,\cdots,m \\ g_{i}(x^{*}) \leq 0,\ i=1,\cdots,m \\ \lambda_{i}^{*} \geq 0,\ i=1,\cdots,m \\ h_{i}(x^{*}) = 0,\ j=1,\cdots,n \end{aligned}$
定理2： 如果原始问题是凸优化问题，满足Slater条件，则存在 $x^*,\lambda^*,\mu^*$ ，使 $x^*$ 和 $(\lambda^*,\mu^*)$ 分别是原始问题和对偶问题的最优解，并且
$p^*=d^*=L(x^*,\lambda^*,\mu^*)$
定理4： 如果原始问题是凸优化问题，且满足Slater条件，则 $x^*$ 和 $(\lambda^*,\mu^*)$ 分别是原始问题和对偶问题的最优解的充要条件是 $(x^*,\lambda^*,\mu^*)$ 满足KKT条件。

SVM中的强对偶性
- SVM是一种凸二次规划问题
- Slater条件在SVM中等价于存在超平面能将数据分隔开来

知识点二：多类别分类: 一对多 (one-vs-all)

例：有三种不同水果：桃，苹果，香蕉。
对桃取值为1，其他两类归于0，做模型进行训练。
对苹果取值为1，其他两类归于0，做模型进行训练。
对香蕉取值为1，其他两类归于0，做模型进行训练。
现在我们有了三个模型，可以对一个输入值进行判断分类，分类结果取出最大值的那个就是类别。

知识点三：特征映射

在这里插入图片描述
对于这样的非线性数据 (特征数n=2)，不能用直线将他们分开，可以尝试用形如
$\theta_{0}+\theta_{1}x^{(1)}+\theta_{2}x^{(2)}+\theta_{3}(x^{(1)})^{2}+\theta_{4}x^{(1)}x^{(2)}+\theta_{5}(x^{(2)})^{2}+...= 0$
的多项式函数曲线作为决策边界。为此，只需做特征映射，将 $(x^{(1)})^{2},x^{(1)}x^{(2)},(x^{(2)})^{2},\cdots$ 作为新的特征。

def feature_mapping(x, y, power):
 """
 x, y: array
 power: 最高项次数
 -------
 Return: x^{p-i}y^{i}, p<=power 生成的DataFrame
 """
 df = pd.DataFrame({'x{}y{}'.format(p-i, i): 
                    np.power(x, p-i) * np.power(y, i) 
                    for p in range(power+1) for i in range(p+1)})
 return df

lynn_1900

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
一些零碎的知识点

文章目录一些零碎的知识点知识点一：Lagrange对偶性知识点二：多类别分类: 一对多 (one-vs-all)知识点三：特征映射一些零碎的知识点知识点一：Lagrange对偶性参考李航老师的《统计学习方法》原始问题给定凸优化问题min⁡xf(x)s.t.gi(x)≤0, i=1,⋯ ,mhj(x)=0, j=1,⋯ ,n \begin{aligned} \min_{x}\quad &f(x) \\ s.t.\quad &g_{i}(x) \l
复制链接

扫一扫