因为变量之间的量纲不一样会影响训练的准确性,所以要对变量进行标准化。极差标准化就是常用的标准化方法之一(又叫min-max标准化),处理后可以使多个变量统一量纲,值都落在[0,1]之间。
标准化变量值 =(原变量值-最小值)/(最大值-最小值)
minVec = X_train_new['Balance'].min()
maxVec = X_train_new['Balance'].max()
X_train_new['Balance'] = (X_train_new['Balance']-minVec)/(maxVec-minVec)
语法讲解:先判断字段的最大值、最小值是什么,再代入公式即可。
注意要划分数据集之后才能 进行连续变量标准化,不能先标准化再去划分数据集。因为有一个原则是尽量不影响测试集的数据。如果先把数据作为一个整体标准化,测试集会受到总体的最大最小值判断的影响。
同理填充空值也是要在划分数据集之后进行,因为填充空值也是要判断总体的众数、中位数、平均数是什么。