随机取样:可能无法表征所有的情况
分层采样:对不同的年龄段(举例)进行采样
大多数算法对正负样本都是很敏感的
下采样:比如正样本很多,我们在正样本中抽取数据,使得正负样本一样多
如果正样本比负样本大很多,建议你取采集更多的数据
selectKBest选择与y相关度最高的k个数据
l1正则化是截断,也就是说不相关的就截断,权重为0,selectfrommodel可以选出大于权重0的特征
随机取样:可能无法表征所有的情况
分层采样:对不同的年龄段(举例)进行采样
大多数算法对正负样本都是很敏感的
下采样:比如正样本很多,我们在正样本中抽取数据,使得正负样本一样多
如果正样本比负样本大很多,建议你取采集更多的数据
selectKBest选择与y相关度最高的k个数据
l1正则化是截断,也就是说不相关的就截断,权重为0,selectfrommodel可以选出大于权重0的特征