sklearn中fit、transform、fit_transform

  • fit,我理解为计算机对数据特征进行理解,得到一种转换数据的规则。例如N-gram模型中文本特征提取,fit后可以得到feature_names(一个单词顺序词组),某些词会组成词组作为单独的特征放到向量表示中去。
  • transform,可以理解为利用fit得出的转换规则,把样本转成所需要的向量等。
  • fit_transform等价于先fit后tranform

假如把文本样本集分为A、B两个子集。利用A集fit的结果去转换B集,和直接用B集去fit_transform的结果是不同的

vectorizer = CountVectorizer(...)
#用A集fit,得到以A集为基础的转换规则
vectorizer.fit(A)
x_A = vectorizer.transform(A)
x_B = vectorizer.transform(B)
x_B1 = vectorizer.fit_transform(B)
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值