这几天看the elements of statistical learning,觉得非常吃力,可能自己水平还不够,觉得这书不适合初学者看,就从Subset Selection 这一章节来说,本文说了主要说了三个点,best-subset selection,stepwise selection and stagewise selection,但是后面两个并没有特别详细的做法步骤,看的似懂非懂,后来在网上各种查,花钱买vpn上谷歌,我也是蛮拼的。
本节主要想表述选取子集的方法,就是在很多个variable里面选择其中比较好的几个来regression,而不是用所有的variable来做regression,那如何衡量选取的好坏呢?还是用那个最小二乘的方法。
1best-subset selection:
这个方法显得非常直观,对于选取k个variable,就是花极高的复杂度,来枚举所有情况求出最小的,下图很好的说明了这个: