使用sklearn转换器处理数据
- 加载datasets模块中的数据集(sklearn自带的数据集)
#加载breast_cancer数据集
from sklearn.datasets import load_breast_cancer
cancer=load_breast_cancer() #将数据集赋值给cancer变量
print('breast_cancer数据集的长度为:',len(cancer))
print('breast_cancer数据集的类型为:',type(cancer))
#sklearn 自带数据集内部信息获取
cancer_data=cancer['data']
print('breast_cancer数据集的数据为:\n',cancer_data)
cancer_target=cancer['target'] #取出数据集的标签
print('breast_cancer数据集的标签为:\n',cancer_target)
cancer_names=cancer['feature_names'] #取出数据集的特征名
print('breast_cancer数据集的特征名为:\n',cancer_names)
cancer_desc=cancer['DESCR'] #取出数据集的描述信息
print('breast_cancer数据集的描述信息为:\n',cancer_desc)
- 将数据集划分为训练集和测试集
#使用train_test_split划分数据集
print('原始数据数据集数据的形状:',cancer_data.shape)
print('原始数据数据集标签的形状:',cancer_target.shape)
from sklearn.model_selection import train_test_split
cancer_data_train,cancer_data_test,cancer_target_train,cancer_target_test=\
train_test_split(cancer_data,cancer_target,test_size=0.2,random_state=42)
print('训练集数据的形状为:',cancer_data_train.shape)
print('训练集标签的形状为:',cancer_target_train.shape)
print('测试集数据的形状为:',cancer_data_test.shape)
print('测试集标签的形状为:',cancer_target_test.shape)
- 使用sklearn转换器进行数据预处理与降维
#对breast_cancer数据集PCA降
from sklearn.decomposition import PCA
pca_model=PCA(n_components=10).fit(cancer_trainScaler) #生成规则
cancer_trainPca=pca_model.transform(cancer_trainScaler) #将 规则 应用于训练集
cancer_testPca=pca_model.transform(cancer_testScaler) #将 规则 应用于测试集
print('PCA降维 前 训练集数据的形状为:',cancer_trainScaler.shape)
print('PCA降维 后 训练集数据的形状为:',cancer_trainPca.shape)
print('PCA降维 前 测试集数据的形状为:',cancer_testScaler.shape)
print('PCA降维 后 测试集数据的形状为:',cancer_testPca.shape)