一、特征二值化
二、特征归一化
(一)、总和标准化
(二)、标准差标准化
(三)、极大值标准化
(四)、极差标准化(区间放缩法,0-1标准化)
三、连续特征变换
四、定性特征哑编码:One-hot编码
数据变换
数据变换即对数据进行规范化处理,以便于后续的信息挖掘。常见的数据变换包括:特征二值化、特征归一化、连续特征变化,定性特征哑编码等。
一、特征二值化
特征二值化的核心在于设定一个阈值,将特征与该阈值比较后,转话为0或1(只考虑某个特征出现与否,不考虑出现次数,程度),它的目的是将连续数值细粒度的度量转化为粗粒度的度量。
下面为Python实现特征二值化的方法:
结果如下:
二、特征归一化
特征归一化也叫做数据无量纲化,主要包括:总和标准化、标准差标准化、极大值标准化、极差标准化。这里需要说明的是,基于树的方法是不需要进行特征归一化的,例如GBDT,bagging、boostin