在机器学习中,线性回归模型可能会遇到过拟合的问题,特别是当特征数量很多或者特者之间存在相关性时。正则化是一种减少过拟合的技术,通过在损失函数中添加一个额外的项来惩罚模型的复杂度。常用的正则化技术有两种:L1正则化(Lasso回归)和L2正则化(Ridge回归)
L1正则化
L1正则化:通过向损失函数添加权重的绝对值之和来工作。这导致模型倾向于产生稀疏权重矩阵,即很多权重会变为零。L1的损失函数如下:
优点:
1. 稀疏性:L1正则化倾向于产生稀疏矩阵,即很多权重会变为0。这使得模型变得简单,易于解释
2. 特征选择:由于L1正则化能够将不重要的特征权重压缩到0,它在特征选择方面非常有效。这有助于识别对模型预测最有影响力的特征。(dj思考:感觉L1正则化适用特征之间存在相关性的情况,从损失函数来看,如果特征之间存在相关性,保留一个特征既不会影响影响模型的精度又降低了损失函数)
3. 抗多重共线性:当数据集中的特征高度相关时,L1正则化可以帮助减少模型的方差,提高模型的泛化能力(在遇到没有训练过的数据时模型的表现能力)
适用情况:
1. 特征