多特征值数据预处理_神经网络调参之数据预处理

这是我第47篇文章。这篇文章介绍一下本人在神经网络调参时对数据预处理的一些心得与理解。本篇文章主要针对的是一些表格类数据或时序信号数据的处理。讲这篇文章前说明一下,我刚给公众号改了名字,新名字为“wbbhcb的量化杂记”。想想自己也算不上量化小白了,也算在量化投资这个领域入门了。新名字大概会在明天正式更新。

1. 极端值处理

在表格数据中,对于某个特征在来说,其通常会分布着若干个特别大或者特别小的极端值,我这里所说的极端值并不是指记录错误或其他逻辑错误,只是这个值在所有样本中出现的概率非常低。举个例子成人身高分布在140cm-230cm之间,如果一个成人身高50cm,这个人的身高就是属于极端值,但也是真实存在的身高(当然你也可以不认为是极端值,极端值可以认为是与其他较大或较小值差好几个数量级的数值)。 极端值对神经网络的训练有什么影响呢?神经网络对极端值是比较敏感的(这点与树模型截然不同)。那为何如此敏感呢?下面举一个很简单的例子。如下这幅图,如果用一个线性模型去拟合蓝色的点可以得到如下的红色的线。如果我们把黄色的异常点不作处理的加进去,显然就得不到如此好的拟合直线了。虽然实际很多问题都是非线性的,很多变换可以降低极端值的影响,比如sigmoid变换,但不管怎么说极端值还是会对模型的训练有一定的影响。

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值