一、 数据预处理
1.1 无量纲化处理
无量纲化,是指特征的规格不一样,不能够放到一起进行比较。
解决方案:
包 |
类 |
参数列表 |
类别 |
fit方法有用 |
说明 |
sklearn.preprocessing |
StandardScaler |
特征 |
无监督 |
Y |
标准化 |
sklearn.preprocessing |
MinMaxScaler |
特征 |
无监督 |
Y |
区间缩放 |
sklearn.preprocessing |
Normalizer |
特征 |
无信息 |
N |
归一化 |
sklearn.preprocessing |
Binarizer |
特征 |
无信息 |
N |
定量特征二值化 |
sklearn.preprocessing |
OneHotEncoder |
特征 |
无监督 |
Y |
定性特征编码 |
sklearn.preprocessing |
Imputer |
特征 |
无监督 |
Y |
缺失值计算 |
sklearn.preprocessing |
PolynomialFeatures |
特征 |
无信息 |
N |
多项式变换(fit方法仅仅生成了多项式的表达式) |
sklearn.preprocessing |
FunctionTransformer |
特征 |
无信息 |
N |
自定义函数变换(自定义函数在transform方法中调用) |
sklearn.feature_selection |
VarianceThreshold |
特征 |
无监督 |
Y |
方差选择法 |
sklearn.feature_selection |
SelectKBest |
特征/特征+目标值 |
无监督/有监督 |
Y |
自定义特征评分选择法 |
sklearn.feature_selection |
SelectKBest+chi2 |
特征+目标值 |
有监督 |
Y |
卡方检验选择法 |
sklearn.feature_selection |
RFE |
特征+目标值 |
有监督 |
Y |
递归特征消除法 |
sklearn.feature_selection |
SelectFromModel |
特征+目标值 |
有监督 |
Y |
自定义模型训练选择法 |
sklearn.decomposition |
PCA |
特征 |
无监督 |
Y |
PCA降维 |
sklearn.lda |
LDA |
特征+目标值 |
有监督 |
Y |
LDA降维 |
1.2 代码案例
from sklearn.preprocessing import StandardScaler
StandardScaler().fit_transform(iris.data)
from sklearn.preprocessing import MinMaxScaler
MinMaxScaler().fit_transform(iris.data)
from sklearn.preprocessing import