Python: sklearn库中数据预处理函数fit_transform()和transform()的区别

最新推荐文章于 2024-08-08 18:50:12 发布

阳阳yyx

最新推荐文章于 2024-08-08 18:50:12 发布

阅读量4.2k

点赞数 6

分类专栏： python sklearn 文章标签： sklearn

本文链接：https://blog.csdn.net/qq_29317617/article/details/88735521

版权

python 同时被 2 个专栏收录

9 篇文章 1 订阅

订阅专栏

sklearn

7 篇文章 0 订阅

订阅专栏

文章目录

Python: sklearn库中数据预处理函数fit_transform()和transform()的区别

Python: sklearn库中数据预处理函数fit_transform()和transform()的区别

最近学习Udacity的机器学习项目，在敲code的时候，发现涉及到sklearn数据预处理的两个函数：fit_transform()和transform()，这两个函数对于train data和test data是有区别的。

# 特征提取
# 将佐料转换成特征向量
vectorizer = TfidfVectorizer(stop_words='english', ngram_range=(1, 1),
                             analyzer='word', max_df=.57, binary=False,
                             token_pattern=r'\w+', sublinear_tf=False)
# 处理训练集
train_tfidf = vectorizer.fit_transform(train_ingredients).todense()
# fit_transform()，先拟合数据，再标准化数据

# 处理测试集
test_tfidf = vectorizer.transform(test_ingredients)

首先，TfidfVectorizer是一个文本特征提取的函数，这里先不介绍。详细介绍可见：TF-IDF与余弦相似性的应用（一）：自动提取关键词
我们先来看一下这两个函数的API以及参数含义：

fit_transform()

即fit_transform()的作用就是先拟合数据，然后转化它将其转化为标准形式。
transform()

即tranform()的作用是通过找中心和缩放等实现标准化。

因此，fit_transform()和transform()的主要区别就是前者经历了一个fit过程，具体如下：
为了数据归一化（使特征数据方差为1，均值为0），我们需要计算特征数据的均值μ和方差σ^2，再使用下面的公式进行归一化：
$x^\prime=\frac{x-\mu}{\delta^2}$
我们在训练集上调用fit_transform()，其实找到了均值μ和方差σ^2，即我们已经找到了转换规则，我们把这个规则利用在训练集上，同样，我们可以直接将其运用到测试集上（甚至交叉验证集），所以在测试集上的处理，我们只需要标准化数据而不需要再次拟合数据。用一幅图展示如下：
ALT

注意：

二者的功能都是对数据进行某种统一处理（比如标准化~N(0,1)，将数据缩放(映射)到某个固定区间，归一化，正则化等）
fit_transform(traintData)对训练数据先拟合fit，找到该part的整体指标，如均值、方差、最大值最小值等等（根据具体转换的目的），然后对该trainData进行转换transform，从而实现数据的标准化、归一化等等。
根据对之前部分fit的整体指标，对测试数据（testData）使用同样的均值、方差、最大最小值等指标进行转换transform(testData)，从而保证part、rest处理方式相同。
必须先用fit_transform(trainData)，之后再transform(testData)
如果直接transform(trainData)，程序会报错
如果fit_transfrom(trainData)后，使用fit_transform(testData)而不用transform(testData)，虽然也能归一化，但是两个结果不是在同一个“标准”下的，具有明显差异。

原因：
sklearn里的封装好的各种算法都要fit、然后调用各种API方法，transform只是其中一个API方法，所以当你调用除transform之外的方法，必须要先fit，为了通用的写代码，还是分开写比较好。
也就是说，这个fit相对于transform而言是没有任何意义的，但是相对于整个代码而言，fit是为后续的API函数服务的，所以fit_transform不能改写为transform。