sklearn库中fit_transform()和transform()的区别

最新推荐文章于 2022-04-21 11:29:00 发布

sdssee

最新推荐文章于 2022-04-21 11:29:00 发布

阅读量266

点赞数

分类专栏：机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/sdssee/article/details/88321969

版权

机器学习专栏收录该内容

4 篇文章 0 订阅

订阅专栏

fit_transform()和transform()是sklearn库中常用的数据预处理函数，在《Python机器学习及实践》一书中，涉及到这两个函数的代码如下：

# 从sklearn.preprocessing导入StandardScaler
from sklearn.preprocessing import StandardScaler
# 标准化数据，保证每个维度的特征数据方差为1，均值为0，使得预测结果不会被某些维度过大的特征值而主导
ss = StandardScaler()
# fit_transform()，先拟合数据，再标准化数据 
X_train = ss.fit_transform(X_train)
# transform()，标准化数据 
X_test = ss.transform(X_test)

问题1： 为什么对训练集和测试集使用不同函数进行数据预处理？
问题2： fit_transform()和transform()两者存在什么差别？

官方文档中对这两个函数的说明：

1. fit_transform:

Fit to data, then transform it，即fit_transform()的功能就是对数据先进行拟合处理，然后再将其进行标准化。

2. transform():

Perform standardization by centering and scaling，即transform()的功能是对数据进行标准化。

由此可知，两者的差别在于fit_transform()函数中多了一个步骤，即对数据进行fit处理。那么为什么需要进行fit处理？这是因为数据归一化的过程中，需要计算出数据的均值和方差，而这个过程函数fit()能够实现。

也就是说，当我们在训练集上调用fit_transform()，对训练数据进行先拟合后标准化的处理时，此时我们已经得到数据的均值和方差，这一操作接下来不用重复执行，因此我们在测试集上只需要调用transform()，对测试数据进行标准化的处理。数据处理过程如下图所示：
在这里插入图片描述

总结一下上述三种函数：

fit(X[,y])：计算待标准化数据的均值和方差等参数。
fit_transform(X[,y])：对数据先进行拟合，然后标准化。
transform(X[, y, copy])：对数据进行标准化，与fit_transform(X[,y])的结果是一样的。

参考文献：官方文档

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

sdssee CSDN认证博客专家 CSDN认证企业博客

码龄8年

25: 原创

20万+: 周排名

29万+: 总排名

5万+: 访问

: 等级

416: 积分

14: 粉丝

40: 获赞

6: 评论

111: 收藏

私信

关注

热门文章

分类专栏

最新评论

K-Fold 交叉验证 (Cross-Validation)
立青-Lam: 我看到很多训练代码没有引入k fold但是保留了固定的val set。是不是说这样相当于只做了一次k fold训练？盼回复
Git的基本使用技巧
CSDN-Ada助手: 软件工程问题：软件开发有流程，硬件开发和生产当然也有，请看硬件生产的流程（此流程不包括硬件设计）：http://www.pingwest.com/i-visited-the-manufacturing-of-xiaomi-4-in-foxconn/ 这样的 '生产' 流程和软件 '生产' 的流程有什么区别呢?
K-Fold 交叉验证 (Cross-Validation)
猫不吃鱼哦: 你好，请问“将原始数据换分为K组”，这里的原始数据是指所有训练数据吗？
有关卡方检验（chi-square test ）
weixin_44903959: 太详细了！！！！！！！！！！！！好评
sklearn库中fit_transform()和transform()的区别
jiahe1224: 为什么不是统一标准化后再区分训练集与测试集呢？感觉这样更合理啊

最新文章

目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。