机器学习随机森林回归模型数据预处理中归一化或者标准化

一、归一化的定义与特点

1.定义

  将数据按比例缩放,使其落入一个小的特定区间,通常是[0, 1]。

2.特点
(1)保持数据间的比例关系。
(2)对极端值敏感,如果数据中存在极端值,所有数据都可能被压缩到很小的区间。
(3)简单易行,适合有固定上下界的数据场景。

二、标准化的定义与特点

1.定义
  基于原始数据的均值和标准差进行缩放,使得处理后的数据均值为0,标准差为1。
2.特点
(1)不受极端值的影响。
(2)适合处理具有正态分布的数据。
(3)如果数据分布不是高斯分布,效果可能较差。
(4)不能保证数据范围在[0, 1]之间。

三、随机森林回归模型的特点

1.基于决策树的集成学习方法:通过构建多个决策树并综合其预测结果来提高模型的准确性和稳定性。

2.对特征取值大小不敏感:因为随机森林是通过寻找最优分裂点来构建决策树的,所以样本点的数值缩放不影响分裂点的位置,对树模型的结构也不造成影响。

3.可以处理高维数据:随机森林能够处理具有大量特征的数据集,并且在一定程度上能够自动选择重要的特征。

四、选择数据预处理方法的建议

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值