常用的向量与矩阵的范数总结[L0、L1、L2范数]

最新推荐文章于 2024-08-08 23:23:23 发布

honor、

最新推荐文章于 2024-08-08 23:23:23 发布

阅读量6.3k

点赞数 2

分类专栏：机器学习文章标签：范数矩阵算子范数矩阵范数

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/baidu_36415362/article/details/107224116

版权

机器学习专栏收录该内容

16 篇文章 2 订阅

订阅专栏

向量的范数

首先定义一个向量为：x=[-5，6，8, -10]
1-范数：

在这里插入图片描述，即向量的各个元素的绝对值之和，matlab调用函数norm(x, 1) 。则上述x的1-范数结果是29

2-范数：

在这里插入图片描述，Euclid范数（欧几里得范数，常用计算向量长度），即向量元素绝对值的平方和再开方，matlab调用函数norm(x, 2)。

在这里插入图片描述 -范数：

在这里插入图片描述，即所有向量元素绝对值中的最大值，matlab调用函数norm(x, inf)。

在这里插入图片描述 -范数：

在这里插入图片描述，即所有向量元素绝对值中的最小值，matlab调用函数norm(x, -inf)。

p-范数：

在这里插入图片描述，即向量元素绝对值的p次方和的1/p次幂，matlab调用函数norm(x, p)。

矩阵范数

矩阵的1范数
在这里插入图片描述列和范数，即所有矩阵列向量绝对值之和的最大值，矩阵的每一列上的元素绝对值先求和，再从中取个最大的（列和最大）。matlab调用函数norm(A, 1)。

矩阵的2范数：
矩阵的2范数即：矩阵 $A^{T} A$ 的最大特征值开平方根。

矩阵的无穷范数：
矩阵的每一行上的元素绝对值先求和，再从中取个最大的（行和最大）

L0范数和L1范数

L0范数是指向量中非零元素的个数。如果用L0规则化一个参数矩阵W，就是希望W中大部分元素是零，实现稀疏。

L1范数是指向量中各个元素的绝对值之和，也叫”系数规则算子（Lasso regularization）“。L1范数也可以实现稀疏，通过将无用特征对应的参数W置为零实现。

L0和L1都可以实现稀疏化，不过一般选用L1而不用L0，原因包括：1）L0范数很难优化求解（NP难）；2）L1是L0的最优凸近似，比L0更容易优化求解。（这一段解释过于数学化，姑且当做结论记住）
稀疏化的好处是是什么？
1）特征选择
实现特征的自动选择，去除无用特征。稀疏化可以去掉这些无用特征，将特征对应的权重置为零。
2）可解释性（interpretability）
例如判断某种病的患病率时，最初有1000个特征，建模后参数经过稀疏化，最终只有5个特征的参数是非零的，那么就可以说影响患病率的主要就是这5个特征。

L2范数

L2范数是指向量各元素的平方和然后开方，用在回归模型中也称为岭回归（Ridge regression）。
L2避免过拟合的原理是：让L2范数的规则项||W||2 尽可能小，可以使得W每个元素都很小，接近于零，但是与L1不同的是，不会等于0；这样得到的模型抗干扰能力强，参数很小时，即使样本数据x发生很大的变化，模型预测值y的变化也会很有限。

参考链接：https://www.cnblogs.com/MengYan-LongYou/p/4050862.html

https://blog.csdn.net/Michael__Corleone/article/details/75213123

关注

2
点赞
踩
17

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。