目录
L0范数,L1范数,L2范数
L0范数是指向量中非0的元素的个数。如果我们用L0范数来规则化一个参数矩阵W的话,就是希望W的大部分元素都是0。
L1范数是指向量中各个元素绝对值之和,也有个美称叫“稀疏规则算子”(Lasso regularization)。
任何的规则化算子,如果他在Wi=0的地方不可微,并且可以分解为一个“求和”的形式,那么这个规则化算子就可以实现稀疏。这说是这么说,W的L1范数是绝对值,|w|在w=0处是不可微。
L1范数和L0范数可以实现稀疏,L1因具有比L0更好的优化求解特性而被广泛应用。
L2范数是指向量各元素的平方和然后求平方根。我们让L2范数的规则项||W||2最小,可以使得W的每个元素都很小,都接近于0,但与L1范数不同,它不会让它等于0,而是接近于0,这里是有很大的区别的哦。而越小的参数说明模型越简单,越简单的模型则越不容易产生过拟合现象。
制了参数很小,实际上就限制了多项式某些分量的影响很小,这样就相当于减少参数个数。
sigmond函数
Sigmoid
函数是一个
S
型的函数,当自变量
z
趋近正无穷时,因变量
g(z)
趋近于
1
,而当
z
趋近负无穷时,
g(z)
趋近于0
,它能够将任何实数映射到
(0,1)
区间,使其可用于将任意值函数转换为更适合二分类的函数。
因为这个性质,
Sigmoid
函数也被当作是归一化的一种方法,与我们之前学过的
MinMaxSclaer
同理,是属于数据预处理中的“
缩放
”
功能,可以将数据压缩到
[0,1]
之内。区别在于,
MinMaxScaler
归一化之后,是可以取到0
和
1
的(最大值归一化后就是
1
,最小值归一化后就是
0
),但
Sigmoid
函数只是无限趋近于
0
和
1
。
损失函数
损失函数仅仅针对有参数的模型而言,没有参数的模型就不存损失函数,比如KNN,决策树。
损失函数小,模型在训练集上表现优异,拟合充分,参数优秀。
损失函数大,模型在训练集上表现差劲,拟合不足,参数糟糕。
我们追求损失函数的最小值,让模型在训练集上表现最优,可能会引发另一个问题:如果模型在训练集上表示优秀,却在测试集上表现糟糕,模型就会过拟合。虽然逻辑回归和线性回归是天生欠拟合的模型,但我们还是需要控制过拟合的技术来帮助我们调整模型,对逻辑回归中过拟合的控制,通过正则化来实现。