范数
我们不能简单地按照元素大小比较不同的向量或者矩阵,所以给出了一种长度计量单位,也就是从向量空间 到实数域 的非负函数 为范数。意思就是把一堆数转化成一个数进行比较。
向量范数
满足条件:
1. 正定:对于所有的向量 ,他们的范数 ,并且只有 时才有
2. 齐次:对于所有的向量 和 , 存在
3.三角不等式: 对于所有的向量 和 , 存在
常用的向量范数为 范数 :
其中 的情形最重要,分别记为 , 和 .在不引起歧义的情况下,我们有时省略 范数的角标,记为
范数是指向量中各个元素绝对值之和.
范数是指向量各元素的平方和然后求平方根.
正定矩阵 A诱导的范数:
矩阵范数
和向量范数类似,矩阵范数是定义在矩阵空间上的非负函数,并且满足正定性、齐次性和三角不等式.向量的 范数可以比较容易地推广到矩阵的 范数。
当 时,矩阵 的 矩阵范数:
也就是所有的数加和,即 为 中所有元素绝对值的和。
当 p = 2 时,此时得到的是矩阵的 范数(下称 范数),记为 ,它可以看成是向量 范数的推广(矩阵的迹(tr)等于矩阵主对角线元素之和,也等于矩阵的全部特征值之和。):
即所有元素平方和开根号。
全部元素模和 | ||
全部元素模和平方开根号 | ||
模长最大 |
算子范数
定义的矩阵范数 为从属向量范数 的矩阵范数,在计算中经常出现矩阵和向量的乘积,因此希望矩阵范数和向量范数间有某种协调性。
定义如下:
数值最优化的过程中直接运用即可,最常用的经常用到的是矩阵的2范数。
列模长和取最大 | ||
谱范数,的最大的特征值 | ||
行模长和取最大 |
关于算子2范数 其中的 函数,意为求解特征值的最大值:,也就是矩阵 的谱半径(最大特征值)。
定理:矩阵 的谱半径(最大特征值) 小于 矩阵的任意矩阵范数。
关于L1,L2范数拓展
正则化可以产生稀疏权值矩阵,即产生一个稀疏模型,可以用于特征选择
正则化可以防止模型过拟合
为什么 范数可以产生稀疏矩阵
目标是把 的解限制在黄色区域内,假设参数只有两个:
左图为 范数 右图为 范数
右图中的 范数公式为:
因为 ,所以根据公式:
所以呈现的是一个菱形,如图就把解定在了右图中的 处,在此处 ,所以说明具有稀疏性。
右图中的 范数公式为:
因为, 所以根据 公式:
所以呈现的是一个圆形,如图就把解定在了左图中的 处,一般不在边界,所以说明 一般都不是 ,所以说不是零,就防止了过拟合。