1 范数(花书 P24-25 & P142-147)
常见的有 L0 L1 L2 L无穷 Frobennius范数
事实上 范数有自己的严格定义,符合的话都是范数
a.f(x)=0, => x=0
b.f(x)+f(y)>=f(x+y) (triangle ineuqality 三角不等式)
c.任意a属于R, f(ax)=|a|f(x)
Lp范数中:
p >=1时, 是将向量映射到非负值的函数,(衡量原点到x点的距离)
当 p=2,称为欧几里得范数——原点出发的欧几里得距离
也常用来衡量向量的大小 ,可以通过xTx计算。
当时平方L2范数计算更方便,求偏导时至于一个维度值有关。但有个缺点, 在原点附近增长比较缓慢(参考二次函数),但有些深度学习网络就是在0值与非零值之间区分。此时我们转用更为简单的L1范数,并且它在各个方向的斜率相同。
简化为 ||x||1 = ∑|xi|
最大范数(max norm)
取最大值的维度值
Frobenius范数:
用在矩阵之中的的情况,类似于L2范数的定义
两个向量的点积可以用向量来解释:xTy = ||x||2 ||y||2 cosθ
用途:参数范数惩罚