『sklearn学习』preprocessing函数——数据预处理

最新推荐文章于 2023-05-31 23:33:06 发布

onlyfansnft.art

最新推荐文章于 2023-05-31 23:33:06 发布

阅读量1.8k

点赞数

分类专栏： sklearn 数据挖掘文章标签：数据挖掘 Python sklearn 大数据 numpy

本文链接：https://blog.csdn.net/sbtgmz/article/details/53407002

版权

数据挖掘同时被 2 个专栏收录

25 篇文章 1 订阅

订阅专栏

sklearn

13 篇文章 0 订阅

订阅专栏

# 数据预处理
from sklearn import preprocessing
from sklearn import datasets

import numpy as np

boston = datasets.load_boston()
X, y = boston.data, boston.target
print X[:, :3].mean(axis=0)
print X[:, :3].std(axis=0)

# 缩放
X_2 = preprocessing.scale(X[:, :3])
print X_2.mean(axis=0)
print X_2.std(axis=0)

# 标准化，把特征值的样本均值变成 0，标准差变成 1
my_scaler = preprocessing.StandardScaler()
print my_scaler.fit(X[:, :3])
print my_scaler.transform(X[:, :3]).mean(axis=0)

# 标准化，将样本数据根据最大值和最小值调整到区间内，默认是 [0, 1]
my_minmax_scaler = preprocessing.MinMaxScaler()
my_minmax_scaler.fit(X[:, :3])
print my_minmax_scaler.transform(X[:, :3]).max(axis=0)
# 将默认区间修改为指定的区间
my_odd_scaler = preprocessing.MinMaxScaler(feature_range=(-3.14, 3.14))
my_odd_scaler.fit(X[:, :3])
print my_odd_scaler.transform(X[:, :3]).max(axis=0)

# 标准化，正态化，它会将每个样本长度标准化为 1
normalized_x = preprocessing.normalize(X[:, :3])
print normalized_x
# normalized_x 并没有 fit 属性，且 normalized_x 是一个 array 数组