1.datasets模块常用数据集加载函数:
load_boston,fetch_california_housing,load_digits,load_breast_cancer,load_iris,load_wine
data,target,feature_names,DESCR分别获取数据集的数据,标签,特征名称,描述信息
2.将数据集划分为训练集和测试集:
from sklearn.model_selection.train_test_split
常用参数:arrays:接受一个或多个数据集
test_size:测试集的大小
train_size:训练集的大小
random_size,shuffle,stratify
3.使用sklearn转换器进行数据预处理与降维:
转换器的三个方法:fit,tarnsform,fit_transform
from sklearn.preprocessing import 预处理函数名称
x = MinMaxScaler().fit(cancer_data_train) # 生成规则
y = x.transform(训练集) # 将规则应用于训练集
部分预处理函数:MinMaxScaler等差标准化