Abstract:
1. 0范有稀疏性;2范没有稀疏性,2范只能做到压缩,它不会把回归系数变为0。1范有稀疏性,但没有0范直接。2. 1范和2范都有导数,0范不光滑,不可导,所以它的性质和计算目前仍然很难做。
0范:向量中非零元素的个数
1范:向量各元素绝对值之和
2范数:
$$\sum_{i=1}^{m} x_i^2$$
首先,既然0范数具有很好的稀疏性(特征选择能力,防止过拟合),为什么0范数目前还未能推广?
因为0范数不可导。而目前通用的几种数值解法都需要借助梯度(or导数)。
Part.1.方程的几种数值解法
1.梯度下降法(Gradient descend)
先上代码:
以线性回归的代价函数为例:
$$J(\theta_0, \theta_1) = \frac{1}{2m}\sum_{i=1}^m(h_\theta(x^{(i)})-y^{(i)})^2$$
我们的梯度下降更新公式是:
$$\theta_j := \theta_j - \alpha \frac{1}{m}\sum_{i=1}^{m}(h_{\theta}(x^{(i)})-y^{(i)})\cdot x_j^{(i)}$$