葫芦书笔记----优化算法

最新推荐文章于 2023-03-14 11:44:58 发布

沃·夏澈德

最新推荐文章于 2023-03-14 11:44:58 发布

阅读量250

点赞数

分类专栏：葫芦书笔记文章标签：优化算法梯度下降

本文链接：https://blog.csdn.net/aaalswaaa1/article/details/109082177

版权

葫芦书笔记专栏收录该内容

13 篇文章 0 订阅

订阅专栏

优化算法

实际上，机器学习算法=模型表征+模型评估+优化算法。

其中，优化算法所做的事情就是在模型表征空间中找到模型评估指标最好的模型。

有监督学习的损失函数

有监督学习涉及的损失函数有哪些？请列举并简述它们的特点。

0-1损失
$L_{0-1}(f,y)=1_{fy\le0}$
其中 $1_p$ 是知识函数,f为模型，当且仅当P为真时取值为1，否则取值为0。

该函数能直观滴刻画分类的错误率，但是由于其非凸、非光滑的特点，使得算法很难直接对该函数进行优化。
Hinge损失函数
$L_{hinge}(g,y)=max(0,1-fy)$
Hinge损失函数是0-1损失函数的一个代理损失函数和相对紧的上界，且当fy$\ge$1时，该函数不对其做任何惩罚。Hinge损失再fy-1时不可导，因此不能用梯度下降法进行优化，而是用次梯度下降法。
Logistic损失函数

0-1损失的另一个代理损失函数
$L_{logistic}(f,y)=log_2(1+exp(-fy))$
该函数也是0-1损失的凸上界，且该函数处处光滑，因此可以用梯度下降法进行优化，但是因为对所有样本点都有惩罚，因此对异常值相对更敏感一些。
交叉熵（Cross Entropy）
$L_{cross entropy}(f,y)=-log_2(\frac{1+fy}{2})$

对于回归问题， $Y=\mathbb{R}$ ，我们希望 $f(x_i,\theta)\approx y_i$ ，最常用的损失函数是平方损失函数
$L_{Square}(f,y)=(f-y)^2$
但是平方损失函数对异常点比较敏感，为解决此问题，可以采用绝对损失函数
$L_{absolute}(f,y)=|f-y|$
但绝对损失函数在f=y处无法求导。综合考虑可导性和对异常点的鲁棒性，可以采用Huber损失函数
$L_{Huber}(f,y)= \begin{cases} (f-y)^2, \qquad |f-y|\delta\\ 2\delta|f-y|-\delta^2,\qquad |f-y|>\delta \end{cases}$

机器学习中的优化问题

机器学习中的优化问题，哪些是凸优化问题，哪些是非凸优化问题？请各举以个例子。

速记：凸：逻辑回归。非凸：主成分分析

详细：对于凸优化问题，所有的局部极小值都是全局极小值。

经典优化算法

无约束优化问题的优化方法有哪些？

设有一道无约束优化问题：
$\underset{\theta}{min}L(\theta)$
其中国目标函数 $L(\cdot)$ 是光滑的。请问求解该问题的优化算法有哪些？它们的适用场景是什么？

速记：直接求导，迭代估计。条件允许就直接求，不然就迭代修正估计。

详细：直接法要求目标函数需要满足两个条件。第一个条件是 $L(\cdot)$ 是凸函数。若 $L(\cdot)$ 是凸函数，那么 $\theta^*$ 是最优解的充分必要条件是 $L(\cdot)$ 在 $\theta^*$ 处的梯度为0。即
$\Delta L(\theta^*)=0$
第二个条件为式9有闭式解（就是bai一些严格du的公式,给出任意的自变量就可以求zhi出其因变量,也就是问题的解, 他人可以利用这些公式计算各自的问题）。

同时满足着两个条件的经典例子是岭回归，其目标函数为
$L(\theta)=||X\theta-y||_2^2+\lambda||\theta||_2^2$
推导可得
$\theta^*=(X^TX+\lambda I)^-1X^Ty$
因为直接法需要两个条件，限制了它的应用范围。因此，在很多实际问题中，会采用迭代法。