一、归一化的定义与特点
1.定义
将数据按比例缩放,使其落入一个小的特定区间,通常是[0, 1]。
2.特点
(1)保持数据间的比例关系。
(2)对极端值敏感,如果数据中存在极端值,所有数据都可能被压缩到很小的区间。
(3)简单易行,适合有固定上下界的数据场景。
二、标准化的定义与特点
1.定义
基于原始数据的均值和标准差进行缩放,使得处理后的数据均值为0,标准差为1。
2.特点
(1)不受极端值的影响。
(2)适合处理具有正态分布的数据。
(3)如果数据分布不是高斯分布,效果可能较差。
(4)不能保证数据范围在[0, 1]之间。
三、随机森林回归模型的特点
1.基于决策树的集成学习方法:通过构建多个决策树并综合其预测结果来提高模型的准确性和稳定性。
2.对特征取值大小不敏感:因为随机森林是通过寻找最优分裂点来构建决策树的,所以样本点的数值缩放不影响分裂点的位置,对树模型的结构也不造成影响。
3.可以处理高维数据:随机森林能够处理具有大量特征的数据集,并且在一定程度上能够自动选择重要的特征。