向量的范数:
向量范数是定义了向量的类似于长度的性质,满足正定,齐次,三角不等式的关系就称作范数。
向量的范数一般有L0, L1, L2与L_infinity范数,
L0范数:
定义为
即非0元素个数。
L0范数表示向量中非零元素的个数。如果我们使用L0来规则化参数向量w,就是希望w的元素大部分都为零。L0范数的这个属性,使其非常适用于机器学习中的稀疏编码。在特征选择中,通过最小化L0范数来寻找最少最优的稀疏特征项。但是,L0范数的最小化问题是NP难问题。而L1范数是L0范数的最优凸近似,它比L0范数要更容易求解。因此,优化过程将会被转换为更高维的范数(例如L1范数)问题。
L1范数:
L1范数是向量中各个元素绝对值之和,也被称作“Lasso regularization”(稀疏规则算子)。
在机器学习特征选择中,稀疏规则化能够实现特征的自动选择。一般来说,输入向量X的大部分元素(也就是特征)都是和最终的输出Y没有关系或者不提供任何信息的,在最小化目标函数的时候考虑这些额外的特征,虽然可以获得更小的训练误差,但在预测新的样本时,这些没用的信息反而会被考虑,从而干扰了对正确Y的预测。稀疏规则化算子的引入就是为了完成特征自动选择,它会学习地去掉这些没有信息的特征,也就是把这些特征对应的权重置为0。