sklearn的数据预处理基础

本文介绍了sklearn库中的数据预处理方法,包括均值移除以实现数据正太分布,范围缩放以调整数值大小,数据归一化使数值位于同一范围内,以及二值化和独热编码用于特定数据转换。对于汉字数据,还提到了将其编码为数字的必要性。
摘要由CSDN通过智能技术生成

sklearn里面有很多对数据处理的方法这里介绍几种

#  以下的处理方法都需要引入这个模块
from sklearn import preprocessing 

均值移除

适合处理数值差别很大的数据(比如每列中有1000, 1)这样的数据,需要给它均值移除成正太分布的数据(每列均值为0,标准差为1)

直接上代码

import numpy as np

# 初始化数组
data = np.array([[-1000,10,40],[10,300,40],[20,1,30]])
result = preprocessing.scale(data)    # scale:对数据0均值处理  数据中心化处理
print(result) 
print(np.mean(result,axis=0))      # 每列的平均值  约等于 0
print(np.std(result,axis=0))         # 每列的标准差为 1

范围缩放

个人理解
当数据的每列的数值比较大或相差很大可以用范围缩放把数据缩放到合适大小,当你拿到数据进行均值移除后发现数值相差还是有点大,可以再进行范围缩放(根据数据而论,有些数值大的数据也可以是正太分布数据可以直接进行范围缩放)

import numpy as np

# 初始化数据
data = np.array([[3,-1.5,2,-5.4],
                 [0,4,-0.3,2.1],
                 [1
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值