在使用PCA和NFC中有三个函数fit,fit_transform,transform区分不清各自的功能。通过测试,勉强了解各自的不同,在这里做一些笔记。
1.fit_transform是fit和transform的混合,相当于先调用fit再调用transform。
2.transform函数必须在fit函数之后调用否则会报错, (transform变换的是fit后的数据)
tranform()的作用是通过找中心和缩放等实现标准化
3.fit_transform返回的是降维之后的结果,而且是对列压缩的
4.fit函数返回的是算法类,但是其成员变量components_是有数据的,而且似乎也是执行算法之后的结果,不过是对行压缩的。将数据转置后代入fit函数,和使用fit_transform得到的结果是不一样的,但是很接近。说明fit也是做了一定的特征提取的,只不过是对行操作的。
建议使用fit_transform,若要使用fit,注意这个函数是对行压缩的
涉及到这两个函数的代码如下:
from sklearn.preprocessing import StandardScaler
# 标准化数据,保证每个维度的特征数据方差为1,均值为0,使得预测结果不会被某些维度过大的特征值而主导
ss = StandardScaler()
# fit_transform()先拟合数据,再标准化,先排序、求平均值、均方差,再transform(归一化)
X_train = ss.fit_transform(X_train)
# transform()数据标准化
X_test = ss.transform(X_test)
我们先来看一下这两个函数的API以及参数含义:
1、fit_transform()函数
即fit_transform()的作用就是先拟合数据,然后转化它将其转化为标准形式
2、transform()函数
即tranform()的作用是通过找中心和缩放等实现标准化
到了这里,我们似乎知道了两者的一些差别,就像名字上的不同,前者多了一个fit数据的步骤,那为什么在标准化数据的时候不使用fit_transform()函数呢?原因如下:
为了数据归一化(使特征数据方差为1,均值为0),我们需要计算特征数据的均值μ和方差σ^2,再使用下面的公式进行归一化:
我们在训练集上调用fit_transform(),其实找到了均值μ和方差σ^2,即我们已经找到了转换规则,我们把这个规则利用在训练集上,同样,我们可以直接将其运用到测试集上(甚至交叉验证集),所以在测试集上的处理,我们只需要标准化数据而不需要再次拟合数据。用一幅图展示如下:
回顾fit_transform和transform的区别——
二者的功能都是对数据进行某种统一处理(比如标准化~N(0,1),将数据缩放(映射)到某个固定区间,归一化,正则化等)
fit_transform(partData)对部分数据先拟合fit,找到该part的整体指标,如均值、方差、最大值最小值等等(根据具体转换的目的),然后对该partData进行转换transform,从而实现数据的标准化、归一化等等。。
根据对之前部分fit的整体指标,对剩余的数据(restData)使用同样的均值、方差、最大最小值等指标进行转换transform(restData),从而保证part、rest处理方式相同。
必须先用fit_transform(partData),之后再transform(restData)
如果直接transform(partData),程序会报错
如果fit_transfrom(partData)后,使用fit_transform(restData)而不用transform(restData),虽然也能归一化,但是两个结果不是在同一个“标准”下的,具有明显差异。
然后,本人在实际使用fit_transform时发现:
ValueError: Expected 2D array, got 1D array instead:
array=[ 0.6670329 -2.31319475 -1.86019874 ..., -0.32550257 -0.52007306 -0.3958264 ].
Reshape your data either using array.reshape(-1, 1) if your data has a single feature or array.reshape(1, -1) if it contains a single sample. 提示需要reshape。
将fit_transform(dataset3_preds.label)变为,fit_transform(dataset3_preds.label.reshape(-1,1)) 即可
至于reshape(-1,1)的作用,可参考http://www.cnblogs.com/iamxyq/p/6683147.html