数据处理的features engineering过程中,常常需要根据算法的input数据格式对数据进行预处理,对数值性数的表处理可以提高算法的精度,保证算法的可信度。常用的数据处理办法有数据归一化,标准话和正则话。
1:数据归一化(Normalization)
1.把数据变为(0,1)之间的小数。主要是为了方便数据处理,因为将数据映射到0~1范围之内,可以使处理过程更加便捷、快速。
2.把有量纲表达式变换为无量纲表达式,成为纯量。经过归一化处理的数据,处于同一数量级,可以消除指标之间的量纲和量纲单位的影响,提高不同数据指标之间的可比性。
主要算法:
1.线性转换,即min-max归一化(常用方法)
y=(x-min)/(max-min)
2. 对数函数转换
y=log10(x)
3.反余切函数转换
y=atan(x)*2/PI
sklearn中preprocessing.MinMaxScaler类集成了归一化方法,可以实现: