二、数据的特征处理
概念:通过特定的统计方法(数学方法)将数据转换成算法要求的数据
不同数据的处理方式:(并非一定要用,视情况)
数值型数据:标准缩放:
1、归一化
2、标准化
3、缺失值
类别型数据:one-hot编码(后续补充)
时间类型:时间的切分(后续补充)
sklearn特征处理API
sklearn. preprocessing
数值型数据
1. 归一化:
特点:通过对原始数据进行变换把数据映射到(默认为[0,1])之间
公式:
注:作用于每一列,max为一列的最大值,min为一列的最小值,那么X’’ 为最终结果,mx,mi分别为指定区间值默认mx为1,mi为0
归一化公式计算过程:
x11 = 90-60/90-60 = 1,x11‘ = 1(1-0)+0