作者:禅与计算机程序设计艺术
1.简介
一、背景介绍
Ridge Regression
线性回归分析(Linear regression analysis)是利用现象变量X和因变量Y之间线性关系进行建模,并对此关系进行预测和检验的统计方法。Ridge regression是基于普通最小二乘法的损失函数(least squares loss function),而其中的正则化项是为了使得参数估计值不受误差或特征维度过多导致的过拟合现象。
在Ridge regression中,一个向量w由各个特征值的平方的和加上一个超参数α决定,其中α用来控制L2正则化项的强度,从而使得模型对参数估计值的复杂度进行控制。α越大,表示对模型要求更高的复杂度;反之,α越小,则模型的复杂度就低了。α可以选择用交叉验证法或者通过观察过拟合现象的效果来确定。当α=0时,也就是没有正则化项时,就退化成普通最小二乘法。
Sparse coding(稀疏编码)
稀疏编码是一种矩阵分解技术,它将原始数据(如图像、语音、文本等)映射到一个低维空间,且该空间具有较低的计算复杂度。相比于直接采用原始数据的维度,通过稀疏编码可以得到一个低维子空间,其中每个元素都代表了一个原始数据片段,并且只有少数元素是非零的,其他元素全为零。这样做的原因是,大部分元素的值都是零,因此不占据额外的存储空间,只需要存储那些非零元素及它们对应的索引即可。
使用稀疏编码对原始数据进行降维的目的是降低数据维度