numerical feature处理

最新推荐文章于 2023-09-24 17:40:24 发布

i_chase

最新推荐文章于 2023-09-24 17:40:24 发布

阅读量735

点赞数

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_39638957/article/details/89000360

版权

对于树模型，我们不需要对数值特征进行缩放处理。

对于基于距离的模型，如KNN，线性模型，neural network，都需要对数据进行处理。

对于KNN，如果一个特征的范围很大，那么这个特征就更重要。所以特征的范围一定要选取好。

对于线性模型：

首先，没有标准化或归一化的话，梯度下降将会很慢甚至难以进行。

其次，没有标准化的话，正则项将产生不应有的效果。比如L2正则，特征越大，对应的权重w越大，而正则W**2也就越大了

因此，这些模型的数值特征都需要进行处理。

------------------------------------------------------------------------------------------------------

线性模型对于异常值很敏感：

我们可以进行异常值检测，去除异常值

此外，还可以进行rank transformation,也可以减轻outlier对线性模型的影响

这里注意，应将train data 和test data合并再rank。或者对train data做rank并记录map，再对test data做rank

---------------------------------------------------------------------------------------------

此外，还可以进行下面两个变换，对线性模型尤其是神经网络效果很好：

将会把很大的值降低

-----------------------------------------------------------------------------------------

我们还可以对数据进行不同的特征变换，然后将这几份数据concat起来作为训练数据

或者对不同的模型使用不同的特征变换，然后aggregation

----------------------------------------------------------------------------------------

对特征进行加减乘除的组合，不仅对线性模型有用，

对树模型也有用: 用更少的树产生更robust的模型

----------------------------------------------------------------------------------------

小数部分也可以作为特征：

之前自己做的比赛里就出现过

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
numerical feature处理

对于树模型，我们不需要对数值特征进行缩放处理。对于基于距离的模型，如KNN，线性模型，neural network，都需要对数据进行处理。对于KNN，如果一个特征的范围很大，那么这个特征就更重要。所以特征的范围一定要选取好。对于线性模型：首先，没有标准化或归一化的话，梯度下降将会很慢甚至难以进行。其次，没有标准化的话，正则项将产生不应有的效果。比如L2正则，特征...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。