给一堆数据后怎么用r处理成正态分布_数据分析|数据处理之特征工程（2）

最新推荐文章于 2022-12-16 12:56:41 发布

weixin_39946534

最新推荐文章于 2022-12-16 12:56:41 发布

阅读量2.2k

点赞数

文章标签：给一堆数据后怎么用r处理成正态分布

特征工程决定了模型的上限，算法模型只是逼近这个上限而已。

之前的一篇文章求知鸟：小练习：用python处理数据

提出了“完，全，合，一”的准则来对缺失数据，重复数据，空行数据做处理，可以提高数据“表面”的质量。

求知鸟：数据分析|数据处理之特征工程

这篇文章，讨论了异常数据处理和无量纲化处理（其实，异常数据处理的方法很多，使用场景也很宽泛）；

接下来开始研究：

模型对输入数据有要求：

输入特征正态分布---Z评分归一化

输入特征高度偏斜，而我们想要输入特征正态---BOX-COX变换

类别型变量如何处理---哑编码

以及数据处理的重头戏---特征构造

拆解特征或组合特征

特征缩减---主成分分析

模型对输入数据有要求：

我们做回归预测时，为了保证每个指标的权重相等，排除量纲对预测值的影响，引入了Z评分归一化，将输入数据转换成均值为0，标准差为1的特征；

回归对数据有分布要求：数据呈现正态分布。

最低0.47元/天解锁文章

weixin_39946534

关注

0
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
给一堆数据后怎么用r处理成正态分布_数据分析|数据处理之特征工程（2）

特征工程决定了模型的上限，算法模型只是逼近这个上限而已。之前的一篇文章求知鸟：小练习：用python处理数据提出了“完，全，合，一”的准则来对缺失数据，重复数据，空行数据做处理，可以提高数据“表面”的质量。求知鸟：数据分析|数据处理之特征工程这篇文章，讨论了异常数据处理和无量纲化处理（其实，异常数据处理的方法很多，使用场景也很宽泛）；接下来开始研究：模型对输入数据有要求：输入特征正态分布---Z...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。