常见的矩阵范数有L1,L2,∞∞范数,F范数和引申出的L2,1范数。而在机器学习的特征选择中,利用选择矩阵的范数对选择矩阵进行约束,即是正则化技术,是一种稀疏学习。
L0L0向量范数
L0L0 范数
L0L0,也描述了向量的稀疏性。
从图中可以看出,pp范数,或者是其他可优化的范数。
矩阵的L1L1范数
为了度量稀疏矩阵的稀疏性,则定义矩阵的一种范数,为:
∥W∥1=∑i,j|Wi,j|‖W‖1=∑i,j|Wi,j|
即为矩阵所有元素的绝对值之和,能够描述接矩阵的稀疏性,但是在优化时,难度较大,是将情况向矩阵中元素尽可能是0的方向优化。
矩阵的L2,1L2,1范数
而为了进一步说明矩阵的稀疏性,来说明特征选择中矩阵L2,1L2,1范数的作用。
在特征选择中,通过稀疏化的特征选择矩阵来选取特征,即相当于是一种线性变换。
矩阵L2,1L2,1范数的求导
对于特征选择矩阵WW范数满足矩阵范数的自反性、非负性、对称性和三角不等式关系,是一个范数,这里不予证明。
那么,在线性学习模型,损失函数如:
minW,b∥XW+enbT−Y∥2F+λ∥W∥2,1minW,b‖XW+enbT−Y‖F2+λ‖W‖2,1
那么:
∂∥W∥2,1∂W=⎛⎝⎜⎜⎜⎜∂(∑i=1d∥wi∥2)∂wj⎞⎠⎟⎟⎟⎟d×1=⎛⎝⎜⎜⎜⎜∂(∑i=1d(wiwiT)12)∂wj⎞⎠⎟⎟⎟⎟d×1=(wj∥wj∥2)d×1=⎛⎝⎜⎜⎜⎜⎜⎜⎜1∥w1∥21∥w2∥2⋱1∥wd∥2⎞⎠⎟⎟⎟⎟⎟⎟⎟⎛⎝⎜⎜⎜⎜w1w2⋮wd⎞⎠⎟⎟⎟⎟=⎛⎝⎜⎜⎜⎜⎜⎜⎜1∥w1∥21∥w2∥2⋱1∥wd∥2⎞⎠⎟⎟⎟⎟⎟⎟