无监督学习
无监督学习可以帮助数据科学家更好地理解数据(如数据转换、特征提取等),还可以作为监督算法的数据预处理部分。
进行数据预处理时,可以使用StandardScaler、RobustScaler、MinMaxScaler和Nomralizer等,这些算法的原理可能不相同,但得到的结果大同小异。由于之前介绍过使用SVM进行分类时,SVM模型对数据放缩和参数敏感,因此本节展示如何使用MinMaxScaler方法对数据进行预处理,以及使用数据预处理模型时应该注意的地方。
fit一个MinMaxScaler处理器
from sklearn.datasets import load_breast_cancer
from sklearn.model_selection import train_test_split
cancer = load_breast_cancer()
X_train, X_test, y_train, y_test = train_test_split(cancer.data, cancer.target, random_state=