NLP学习笔记27-优化Optimization

最新推荐文章于 2023-03-02 13:48:28 发布

bohu83

最新推荐文章于 2023-03-02 13:48:28 发布

阅读量1.2k

点赞数

分类专栏： NLP 文章标签：优化凸函数最优解非凸函数优化机器学习

本文链接：https://blog.csdn.net/bohu83/article/details/113984569

版权

NLP 专栏收录该内容

76 篇文章 24 订阅

订阅专栏

一序

本文属于贪心NLP训练营学习笔记系列。视频151 变分推断先跳过。

二为啥要关注优化

通常有关AI的问题可以分解为：模型+优化

模型就是如何选择模型：逻辑回归、深度学习等，然后进行模型的实例化,例如选择深度学习,有几层，每层的参数等。

实例化完毕之后，我们总是可以找到一个与实例化之后的模型相对应的objective function（目标函数），接下来就进入了优化的阶段。

优化有很多算法，见截图，有了objective function之后，就是要归类，再选择合适的优化算法解决。

公式下面的，认为是条件。

Optimization is the Core of Machine Learning

线性回归（Linear Regression）： $minimize_w ||Xw-y||^2_F$
逻辑回归（Logistic Regresssion）： $minimize_{w,b} =\sum^n_{i=1}y_ilog(\sigma(w^Tx_i+b)) +(1-y_i)log[1-\sigma(w^Tx_i+b)] +\lambda||w||^2_2$
SVM（Support Vector Machine）： $||w||^2 +c\sum^n_{i=1} \epsilon_i \;\;\;\; s.t. \epsilon \geq 1-y_ix_i^Tw,\;\; \epsilon_i \geq 0$
协同过滤（Collaborative Filtering）：矩阵分解
K均值（K-means）： $minimize_{\mu_1,...,\mu_k} \sum^K_{j=1}\sum^n_{i=1} ||x_i^{(j)} - \mu_j||^2$

portfolio optimization

老师以股票量化投资为例，介绍优化的重要性

三关于objective function的分类

从下面几个维度来看：
1、是否smooth（smooth VS non-smooth）：

lasso不平滑
2、是否convex：

是有全局最优解，否则局部最优解global optimal VS local optimal

local optimal (深度学习) -> 初始化变得十分重要 -> multiple/better initialization

3、是否连续（discrete VD continuous）：

连续可用梯度下降法，离散需要其他方法：discrete optimization (Relaxation)
4、是否有约束：

constrained VS non-constrained

因为日常问题主要关注的是否convex。

四 Convex Optimization: global optimal VS local optimal

因为凸函数有全局最优解，所以正确的思路是把一个non-convex转变成convex。至于优化函数选择可以很多。

判断凸函数

凸集(convex set): 假设对于任意 $x,y \in C$ 并且任意参数, $$\alpha \in [0,1]$,$ 有 $\alpha x + (1-\alpha)y \in C$ , 则集合为凸集

定义域是凸集（前提条件），从图形上看：集合有两个点，这个两个点的连线上的任意一点也在集合内

例子:
- 所有的 $$R^n$
- 所有正数集合
- 范数 $||x|| \leq 1$
- Affine set: 线性方程组的所有解
- Halfspace: 不等式的所有解: $Ax \leq b$
两个凸集的交集也是凸集

凸函数定义

在定义域是凸集的前提条件下，函数满足

$f(\theta x + (1-\theta)y) \leq \theta f(x) + (1-\theta)f(y), \;\; \theta \in [0,1]$

才是凸函数

式子的理解：左侧认为是下图的蓝线，右侧是f(x),f(y)两点之间的连线（绿色）蓝色要《=绿色的值

常见的凸函数例子:

线性函数为凸/凹函数
, -logx, xlogx
范数
$\frac{x^tx}{t}, \;\; x>0$

判别方法: First Order Convexity Condition

假设 R^n -> R 是可导的, 则f为凸函数, 当且仅当 $f(v) \geq f(x) + \delta(x)^T(y-x)$ ,对于任意 $x,y \in domf$

理解：就是下图的切线，一直再函数图f(y)的下面

Second Order Convexity Condition

上面的用的不太多，这个二阶导数相对多。

假设是两次可导的, 则f为凸函数, 当且仅当 $\delta^2f(x) \geq 0$

线性函数: 推导是凸函数

f(x) = b^Tx+c

假设 要证明的是符合凸函数定义的不等式。

则:

$b^T(\theta x_1 +(1-\theta)x_2)+c \leq \theta(b^Tx_1+c) + (1-\theta)(b^Tx_2+c)$

==》 $\theta b^Tx_1+(1-\theta)b^Tx_2+c \leq \theta b^Tx_1+ \theta c + (1-\theta)b^Tx_2+(1-\theta)c$ （上面式子展开）

==》（左右抵消掉相同项）

==》式子成立

所以f(x)是凸函数

二次方函数：推导是凸函数

$f(x) = \frac{1}{2}x^TAx + b^Tx+c$

对于任意 $A\geq 0$ (说明了A是半正定矩阵)

$\frac{\delta f(x)}{\delta x} = Ax + b$ （这里使用了一个矩阵的求导法则： $\frac{ \partial (x^Tx)}{\partial x}=2x$ ）

$\frac{\delta^2 f(x)}{\delta^2 x} = \frac{\partial (Ax+b) }{ \partial x} =A$

因为A是半正定矩阵, 所以f(x)是凸函数

L1 / L2范数

$||\theta x_1 + (1-\theta)x_2|| \leq \theta ||x_1||+(1-\theta)||x_2 ||$

Maximun Flow Problem

最大流问题就是在容量容许的条件下，从源点到汇点所能通过的最大流量。

网上的解法有很多，这里老师是从数学角度来描述这个问题

https://coordinate.wang/index.php/archives/2666/

根据题目，目标函数是 $maxmize x_{01}+x_{02}+x_{03}$ ,下面都是限制条件，本身管道的取值范围，以及管道的流向（输入=输出）。

接下来是类型判断：线性模型，是凸函数有最优解。确定模型之后，去寻找对应的模型库

https://docs.scipy.org/doc/scipy/reference/generated/scipy.optimize.linprog.html

接下来就是要看标准化库所需要的参数的形式，把我们的条件朝着标准库做转换。

我看这个还是一脸懵逼。根据条件，我们都是等式，所以要找的就是第二项等式。以及下面的条件。

已知的条件 $maxmize x_{01}+x_{02}+x_{03}$ 求 min_x c^T x

==> $maxmize x_{01}+x_{02}+x_{03}=minmize -x_{01}-x_{02}-x_{03}$

x看做是个一列12行的矩阵。 c^T=(-1,-1,-1,0,0,0,0,0,0,0,0,0)

再表达矩阵的时候，把上面约束条件等式变为 $x_{01}-x_{14}-x{15}=0$ 这种表达式

A，b都已经表达出来了，b是一列全是0

接下来就是每个变量的范围

from scipy.optimize import linprog
c = [-1,-1,-1,0,0,0,0,0,0,0,0,0]
A = [[1,0,0,-1,-1,0,0,0,0,0,0,0],
     [0,1,0,0,0,-1,-1,-1,0,0,0,0],
     [0,0,1,0,0,0,0,0,-1,0,0,0],
     [0,0,0,1,0,1,0,0,0,-1,0,0],
     [0,0,0,0,1,0,1,0,1,0,-1,0],
     [0,0,0,0,0,0,0,1,0,0,0,-1]]
b = [0,0,0,0,0,0]
x0_bounds = (0, 3)
x1_bounds = (0, 2)
x2_bounds = (0, 2)
x3_bounds = (0, 5)
x4_bounds = (0, 1)
x5_bounds = (0, 1)
x6_bounds = (0, 3)
x7_bounds = (0, 1)
x8_bounds = (0, 1)
x9_bounds = (0, 4)
x10_bounds = (0, 2)
x11_bounds = (0, 4)

res = linprog(c, A_eq=A, b_eq=b, bounds=(x0_bounds, x1_bounds, x2_bounds, x3_bounds,
                                        x4_bounds, x5_bounds, x6_bounds, x7_bounds,
                                        x8_bounds, x9_bounds, x10_bounds, x11_bounds))
print(res)

最后求解结果：-6. 不知道怎么都变成这种格式了。