1.前言
今天碰到了多项式回归以及正则化降维的知识点,还没有全部搞懂,略微写写现在自己的理解,理解有错误多多包涵。
2.背景
再我们的实际处理数据中,我们会碰到很多高维的数据。这些高维的数据意思就是样本基数n要远小于数据维度p。这种情况就会叫做维灾难。维灾难也会很容易导致另一个我们机器学习里面很严重的一个问题----overfitting。要想解决维灾难,无非就是解决n << p的问题。要么就增大n(提高样本容量),要么就减少p(降维)。第一种方法并不是我们主观能决定的,实际中没有那么容易实现,那么就是选择去,降维。
先前就有学习降维的方法----主成分分析。但是这种方法是将所有的数据都做了变动,考虑到我只想去除某些我不需要的特征属性,保留原有的特征属性,那么就采用另外一种降维方法----LASSO正则化。
3.理论知识
对比LinearRegression,他的损失函数就是
这样会出现一个问题,就是像在多项式回归时所讲,我们这样得到的向量w有可能数值很大,通过实验我们不难发现这就是出现了overfitting的情况了。怎么解决这个问题呢,也就说怎么避免向量w出现很大的数字的情况呢。做法就是,加入一个惩罚项(penalty item),如下图所示: