机器学习基础（六十一）—— 范数及范数的微分

最新推荐文章于 2024-05-15 21:05:39 发布

五道口纳什

最新推荐文章于 2024-05-15 21:05:39 发布

阅读量8.5k

点赞数 1

分类专栏：机器学习

本文链接：https://blog.csdn.net/lanchunhui/article/details/51289730

版权

121 篇文章 39 订阅

订阅专栏

λ ∥ s ∥ 1

$\lambda \|s\|_1$

ℓ1 $\ell_1$ 范数在 0 点不可微会影响梯度方法的应用。

解决方案：

（1）非梯度方法
（2）“平滑” $\ell_1$ 范数

使用 $\sqrt{x^2+\epsilon}$ 来代替 $|x|$ ，对 $\ell_1$ 范数进行平滑，其中 $\epsilon$ 是平滑参数（“smoothing parameter”）。

二范数和 F 范数是不同的概念。

矩阵的诱导 2 范数即为我们常说的 2 范数，其定义如下：

∥ A ∥ 2 = max e i g (A H A) - - - - - - - - - - - - \sqrt

$\|A\|_2=\sqrt{\max eig(A^HA)}$
而矩阵的 F=2 时的范数，却在实际优化领域中经常用到的范数，也称为 Frobenius 范数，其定义式即为其计算式：

∥ A ∥ F = \sum i, j | A i j | 2 - - - - - - - - \sqrt = Tr (A A H) - - - - - - - - \sqrt

$\|A\|_F=\sqrt{\sum_{i,j}|A_{ij}|^2}=\sqrt{\text{Tr}(AA^H)}$

a = magic(3);

b = a.^2;
fro_1 = sqrt(sum(b(:)))
fro_2 = sqrt(trace(a*a'))
fro_3 = norm(a, 'fro')

l2_1 = sqrt(max(eig(a'*a)))
l2_2 = norm(a, 2)

对 $x$ 求偏导（自然仍然是向量）：

对 $A$ 求偏导（自然仍然是矩阵）：

关注