Sklearn学习_02数据的预处理

对单个数据进行标准化

函数介绍

sklearn.preprocessing.scale(
X:{array-like, sparse matrix}, 需要进行变换的数据阵
axis=0:指分别按照列(0)或是整个样本(1)计算均数、标准差并进行变换
注意:在sklearn中没有按行计算均数的,若有需要则需将此矩阵进行转置。然后再进行列变化,最后再转置回原样即可
with_mean=True:是否中心化数据(移除均数)
with_std=True:是否均一化标准差(除以标准差)
copy=True:是否生成副本而不是替换原数据
)

代码解释

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
%matplotlib inline
from sklearn import datasets
boston = datasets.load_boston()
bostondf = pd.DataFrame(boston.data, columns=boston.feature_names)
# 查看原始数据,默认显示前5行
bostondf.head()

运行结果:
在这里插入图片描述

bostondf.describe()

对表格中的数据进行描述,结果如下:
在这里插入图片描述
以CRIM这一列为例,用sklearn对该列做数据的标准变换

from sklearn import preprocessing
# 对数据进行标化,做标准正太变换
x_scaled = preprocessing.scale(bostondf)
# 取出数据的前两行
x_scaled[:2]

结果如下
在这里插入图片描述

# 计算转换后的均数和标准差
x_scaled.mean(axis=0), x_scaled.std(axis=0)

在这里插入图片描述
从上图可以看出,每一列的均数都非常接近于0,标准差都为1。显然每一列都进行了标化

# 对整个矩阵统一做标化
X_scaled1 = preprocessing.scale(bostondf, axis=1)
X_scaled1[:2]

结果如下
在这里插入图片描述

# 分列进行计算
X_scaled1.mean(axis=0), X_scaled1.std(axis=0)

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
sklearn库中,数据预处理是指对原始数据进行转换和调整,以使其适用于机器学习模型的训练和评估。sklearn库提供了多种数据预处理的方法和函数。 其中,常用的数据预处理方法包括: - 特征选择:通过选择最具有代表性的特征,减少特征维度,提高模型性能。可以使用SelectKBest方法配合chi2方法进行特征选择,例如:X_fschi = SelectKBest(chi2, k=300).fit_transform(X_fsvar, y)。 - 特征转换:将原始特征转换成更适合模型使用的形式,如使用主成分分析(PCA)进行特征降维。sklearn提供了PCA方法,可以使用sklearn.decomposition.PCA类进行主成分分析。 - 数据规范化:通过缩放原始数据,使其具有相似的尺度,避免某些特征对模型训练的影响过大。sklearn提供了StandardScaler类和MinMaxScaler类进行数据规范化。 - 缺失值处理:处理缺失值的方法包括删除带有缺失值的样本、用均值或中位数替代缺失值等。sklearn提供了Imputer类进行缺失值处理。 - 数据标准化:将原始数据转化为均值为0,方差为1的标准正态分布。sklearn提供了StandardScaler类进行数据标准化。 这些方法和函数可以通过调用sklearn库中相应的模块和类进行使用。参考文献提供了关于sklearn库的使用教程和示例,可以详细了解sklearn库中的数据预处理方法的使用。<span class="em">1</span><span class="em">2</span><span class="em">3</span> #### 引用[.reference_title] - *1* *2* [机器学习sklearn工具——sklearn中的数据预处理和特征工程](https://blog.csdn.net/weixin_39736118/article/details/128517125)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v93^chatsearchT3_2"}}] [.reference_item style="max-width: 50%"] - *3* [数据挖掘sklearn的使用教程和demo](https://download.csdn.net/download/weixin_67336587/85527941)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v93^chatsearchT3_2"}}] [.reference_item style="max-width: 50%"] [ .reference_list ]

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值