Sklearn里fit , transform ,fit_transform

该文是对以下3篇文章进行的整合:
(原链接:https://www.jianshu.com/p/55e261ce9b3e)
(原链接:Python: sklearn库中数据预处理函数fit_transform()和transform()的区别https://blog.csdn.net/quiet_girl/article/details/72517053)
(原链接:https://blog.csdn.net/weixin_38278334/article/details/82971752?spm=1001.2014.3001.5502)
一、关于sklearn fit 和transform的关系
sklearn里的封装好的各种算法使用前都要fit;
fit之后,可以调用各种API方法,transform是其中一个API;
fit获取了关于数据的有效信息,transform利用fit提供的有效信息进行特征转换。
二、fit、transform、fit_transform
常用情况分为两大类
1、数据预处理中的使用
fit(): 求得训练集X的均值,方差,最大值,最小值,这些训练集X固有的属性。
transform(): 在fit的基础上,进行标准化,降维,归一化等操作。
fit_transform(): fit和transform的组合,既包括了训练又包含了转换。
使用方法
第一步:fit_transform(trainData)
对trainData进行fit的整体指标,找到该part的整体指标,如均值、方差、最大值最小值等等(根据具体转换的目的);
第二步:transform(testData)
对testData使用同样的均值、方差、最大最小值等指标进行转换,从而保证train、test处理方式相同。
注意:
必须先用fit_transform(trainData),之后再transform(testData)
直接transform(testData),程序会报错
如果fit_transfrom(trainData)后,使用fit_transform(testData)而不transform(testData),虽然也能归一化,但是两个结果不是在同一个“标准”下的,具有明显差异。

2.各种算法的fit,transform方法
例1:CountVectorizer
sklearn的CountVectorizer库根据输入数据获取词频矩阵;
fit(raw_documents) :根据CountVectorizer参数规则进行操作,生成文档中有价值的词汇表;
transform(raw_documents):使用符合fit的词汇表或提供给构造函数的词汇表,从原始文本文档中提取词频,转换成词频矩阵;
fit_transform(raw_documents, y=None):学习词汇词典并返回稀疏矩阵。
代码:在这里插入图片描述

三、另一个角度理解fit和transform(我理解不了,扔这里等啥时候可以理解了我再做修正,此处为完全转载)
fit方法的主要工作是获取特征和目标值有价值的信息。
transform方法用来对特征进行转换。
从可利用信息的角度来说,转换分为无信息转换和有信息转换。
无信息转换是指不利用任何其他信息进行转换,比如指数、对数函数转换等。
有信息转换从是否利用目标值向量又可分为无监督转换和有监督转换。
无监督转换指只利用特征的统计信息的转换,统计信息包括均值、标准差、边界等等,比如标准化、PCA法降维等。
有监督转换指既利用了特征信息又利用了目标值信息的转换,比如通过模型选择特征、LDA法降维等。
只有有信息的转换类的fit方法才实际有用,在这点上,fit方法和模型训练时的fit方法就能够联系在一起了:都是通过分析特征和目标值,提取有价值的信息。对于转换类来说是某些统计量;对于模型来说可能是特征的权值系数等。
另外,只有有监督的转换类的fit和transform方法才需要特征和目标值两个参数,即有监督学习的算法fit(x,y)传两个参数。
无监督学习的算法是fit(x),即传一个参数,比如降维、特征提取、标准化。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值