1,特征缩放,有以下几大好处:
a,帮助梯度下降法更快的收敛;
b,帮助避免“nan”陷阱,如果模型中某个值为nan(即如果某个值在训练期间超出浮点数精度时),模型中其他数值也会因为这个数值导致变成nan;
c,确保某个特征的权重不那么大,不然模型可能对范围比较大的特征投入比较大的精力。
2,特征缩放的方法:
a,特征减去均值或者最小值,除以范围(即最大值减最小值);
b,特征减去均值除以方差。
3,如何处理极端值的情况,极端值即大部分点在某个范围呢,小部分点离该范围较远,比如有一个非常长的尾巴:
a,对每个特征取对数,log(x+1);
b,大于某个值时,将大于的值都赋值为该值,这样造成了在阈值处有一个小峰值;
c,分箱,分箱有两种方法,一种是均匀分箱,一种是通过分位数分箱,按照分位数分箱,这会确保每个箱子内的样本点数量是一样的,按照分位数分箱无需考虑离群值。
4,垃圾数据包括以下几个方面;
a,遗漏值,某个特征的值缺失;
b,重复值;
c,不良标签,有个把标签给弄错了;
d,不良特征,把特征给记录错了。