向量范数和矩阵范数是两个概念
对于向量
1-范数:,计算向量元素的绝对值之和,matlab调用函数 norm(x,1)
2-范数,计算向量欧几里得距离,又称欧几里得范数,matlab调用函数 norm(x,2)
-范数,计算所有元素绝对值中的最大值,matlab调用函数 norm(x,inf)
p-范数matlab调用函数 norm(x,p)
对于矩阵
1-范数:,计算矩阵中列向量绝对值之和的最大值,matlab调用函数 norm(A,1)
2-范数,其中,为的最大特征值,matlab调用函数 norm(A,2)
-范数,计算矩阵中行向量绝对值之和的最大值,matlab调用函数 norm(A,inf)
F-范数 ,计算矩阵中所有元素平方和,再开方,matlab调用函数 norm(A,‘fro’)
调用norm(A)或norm(x),默认norm(A,2)或norm(x,2)
机器学习中有L0 L1和L2范数
L0范数:向量中非0元素的个数
低于1范数的都是非凸的,我们一般都是解决凸优化问题,即使碰到非凸优化问题,目前最有效的办法也只是利用凸优化思路去近似求解,故大佬们有利用大于等于1范数的骚操作
L1范数:(也叫LASSO)向量中各元素绝对值之和,更易获得稀疏解(稀疏解的优势:选择关键特征,更容易解释模型)
选择关键特征:若样本仅有两个特征,在直角坐标系下,L1范数等值线为菱形,且四个顶点均在坐标轴上,平方误差项等值线与菱形切点有相对较大的概率落在顶点上,即将其中一个特征的权值降为0,实现了稀疏;
解释模型:因为选择了关键的特征,所以权值为0的特征对样本无关紧要,容易解释哪个特征对模型更有用
L2范数: (也叫“岭回归Ridge Regression”或“权值衰减weight decay”),防止过拟合,优化计算
防止过拟合:同样,若样本仅有两个特征,在直角坐标系下,L2范数等值线为圆,平方误差项等值线与圆切点较大概率落在非顶点上,即不能忽略任意一项的权值,大概率上无法获得稀疏解;相反,相切点处大概率可以均衡化样本的特征,也就是说使所有特征的表达能力都差不多,不至于让模型对某个特征特别敏感,即使某个权值应为0的特征没被降为0,但因为L2范数去除很少的特征,故那个特征可以被其他特征中和掉。
优化计算: L2范数可以优化计算的角度可以参考这篇文章的例子http://www.cnblogs.com/hxsyl/p/5071434.html
参考文章:
https://blog.csdn.net/qq_32742009/article/details/81629210
https://blog.csdn.net/zouxy09/article/details/24971995