文章目录
一、sklearn数据集变换
(一)Pipeline和FeatureUnion:组合estimators
(1)Pipeline:chaining(链接) estimators
(2)FeatureUnion
二、特征抽取
(一)Loading Features From Dicts
(二) Features hashing
(三)Text Feature Extraction
CountVectorizer实现了频数统计和归一化
三、数据预处理
(1)Standardization
(2) Normalization()
规范化是将单个的样本特征向量变换成具有单位长度(unit norm)的特征向量的过程。当你要使用二次形式(quadratic form)如点积或和变换运算来度量一对样本的相似性的时候,数据的规范化非常有用。
规范化操作的计算方法:每一个元素除以它的欧式距离
(3)Binarization
(4)Encoding categoical features
(5)Imputation of missing values
(6)Generating polynomical features