python机器学习库sklearn——数据预处理

全栈工程师开发手册 (作者:栾鹏)

python数据挖掘系列教程

主要操作内容

  • 标准化,也称去均值和方差按比例缩放
    • 将特征缩放至特定范围内
    • 缩放稀疏(矩阵)数据
    • 缩放有离群值的数据
    • 核矩阵的中心化
  • 非线性转换
  • 归一化
  • 二值化
    • 特征二值化
  • 标称特征编码
  • 缺失值插补
  • 生成多项式特征

直接上代码,大家可以运行代码,打印输出各种结果来理解预处理的处理过程。

from sklearn import preprocessing
import numpy as np

X_train = np.array([[ 1., -1.,  -2.],
                    [ 2.,  0.,  0.],
                    [ 3.,  1., -1.]])
X_test = [[-1., 1., 0.]]


# ===============标准化====================
# 计算数据集的尺度(也就是数据集的均值和方差)(各列)
scaler = preprocessing.StandardScaler().fit(X_train)   # 计算均值和方差
print('均值:'
©️2020 CSDN 皮肤主题: 编程工作室 设计师: CSDN官方博客 返回首页
实付9.90元
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、C币套餐、付费专栏及课程。

余额充值