data preprocessing数据预处理

最新推荐文章于 2023-04-24 23:06:14 发布

小鸡快跑哒咯哒

最新推荐文章于 2023-04-24 23:06:14 发布

阅读量667

点赞数

分类专栏：编程基础学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_42140690/article/details/100147141

版权

编程基础学习专栏收录该内容

4 篇文章 0 订阅

订阅专栏

先放一个github学习链接Data PreProcessing

sklearn中fit, transform的作用

fit方法是用于从一个训练集中学习模型参数，其中就包括了归一化时用到的均值，标准偏差。transform方法就是用于将模型用于位置数据，fit_transform就很高效的将模型训练和转化合并到一起，训练样本先做fit，得到mean，standard deviation，然后将这些参数用于transform（归一化训练数据），使得到的训练数据是归一化的，而测试数据只需要在原先得到的mean，std上来做归一化就行了，所以用fit_transform就行了。

Encoding categorical data编码分类数据

这里的分类数据指的是将数据集中的类别标签进行encoder
OneHotEncoder创建虚拟变量，这个博主解释的很通透

Feature Scaling特征缩放

StandardScaler 标准化，归一化处理，主要为了消除量纲对不同属性之间的差异的影响，且是针对每一个特征维度来做的，而不是针对样本。
公式为：(X-mean)/std 计算时对每个属性/每列分别进行。

将数据按期属性（按列进行）减去其均值，并处以其方差。得到的结果是，对于每个属性/每列来说所有数据都聚集在0附近，方差为1标准化（Z-Score），或者去除均值和方差缩放

小鸡快跑哒咯哒

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。