一、数据集变换步骤
sklearn中的transformer
类,有fit
和transform
函数
二、Pipline(管道机制)
1. Pipline方法
Pipline将多个estimator级联成一个estimator。这样做考虑了数据处理一系列前后相继的固定流。比如feature extraction ——> normalization ——> classification
- convience 只需调用一次
fit
和predict
就可以在数据集上训练一组estimators - 联合参数选择(joint parameter selection) 添加
grid search
2. make_pipline方法
三、FeatureUnion
3.1 基本介绍
3.2 用法(与Pipline类似)
设定参数
四、特征抽取(Feature Extraction)
4.1 Loading Features from Dicts
DictVectorizer
4.2 Features hashing