转载：矩阵L2,1范数及矩阵L2,p范数的求导

最新推荐文章于 2024-05-13 12:52:03 发布

buck0818

最新推荐文章于 2024-05-13 12:52:03 发布

阅读量1.7k

点赞数

原文链接：https://blog.csdn.net/lqzdreamer/article/details/79676305

版权

常见的矩阵范数有L1，L2，∞范数，F范数和引申出的L2,1范数。而在机器学习的特征选择中，利用选择矩阵的范数对选择矩阵进行约束，即是正则化技术，是一种稀疏学习。

L0向量范数

L0 范数

L0，也描述了向量的稀疏性。

这里写图片描述

从图中可以看出，p范数，或者是其他可优化的范数。

矩阵的L1范数

为了度量稀疏矩阵的稀疏性，则定义矩阵的一种范数，为：

∥ W ∥ 1 = \sum i, j | W i, j |

即为矩阵所有元素的绝对值之和，能够描述接矩阵的稀疏性，但是在优化时，难度较大，是将情况向矩阵中元素尽可能是0的方向优化。

矩阵的L2,1范数

而为了进一步说明矩阵的稀疏性，来说明特征选择中矩阵L2,1范数的作用。

这里写图片描述

在特征选择中，通过稀疏化的特征选择矩阵来选取特征，即相当于是一种线性变换。

这里写图片描述

矩阵L2,1范数的求导

对于特征选择矩阵W范数满足矩阵范数的自反性、非负性、对称性和三角不等式关系，是一个范数，这里不予证明。

那么，在线性学习模型，损失函数如：

min W, b ∥ X W + e n b T - Y ∥ 2 F + λ ∥ W ∥ 2, 1

那么：

\partial ∥ W ∥ 2 , 1 \partial W = ⎛⎝⎜⎜⎜⎜ \partial ( \sum i = 1 d ∥ w i ∥ 2 ) \partial w j ⎞⎠⎟⎟⎟⎟ d \times 1 = ⎛⎝⎜⎜⎜⎜ \partial ( \sum i = 1 d ( w i w i T ) 1 2 ) \partial w j ⎞⎠⎟⎟⎟⎟ d \times 1 = (w j ∥ w j ∥ 2) d \times 1 = ⎛⎝⎜⎜⎜⎜⎜⎜⎜ 1 ∥ w 1 ∥ 2 1 ∥ w 2 ∥ 2 ⋱ 1 ∥ w d ∥ 2 ⎞⎠⎟⎟⎟⎟⎟⎟⎟ ⎛⎝⎜⎜⎜⎜ w 1 w 2 ⋮ w d ⎞⎠⎟⎟⎟⎟ = ⎛⎝⎜⎜⎜⎜⎜⎜⎜ 1 ∥ w 1 ∥ 2 1 ∥ w 2 ∥ 2 ⋱ 1 ∥ w d ∥ 2 ⎞⎠⎟⎟⎟⎟⎟⎟

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
转载：矩阵L2,1范数及矩阵L2,p范数的求导

常见的矩阵范数有L1，L2，∞∞范数，F范数和引申...
复制链接

扫一扫

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。