sklearn的数据预处理基础

最新推荐文章于 2024-07-31 09:45:41 发布

苏建康

最新推荐文章于 2024-07-31 09:45:41 发布

阅读量228

点赞数 1

分类专栏：机器学习

本文链接：https://blog.csdn.net/SJK__/article/details/89888868

版权

本文介绍了sklearn库中的数据预处理方法，包括均值移除以实现数据正太分布，范围缩放以调整数值大小，数据归一化使数值位于同一范围内，以及二值化和独热编码用于特定数据转换。对于汉字数据，还提到了将其编码为数字的必要性。

摘要由CSDN通过智能技术生成

sklearn里面有很多对数据处理的方法这里介绍几种

#  以下的处理方法都需要引入这个模块
from sklearn import preprocessing

均值移除

适合处理数值差别很大的数据（比如每列中有1000, 1）这样的数据，需要给它均值移除成正太分布的数据（每列均值为0，标准差为1）

直接上代码

import numpy as np

# 初始化数组
data = np.array([[-1000,10,40],[10,300,40],[20,1,30]])
result = preprocessing.scale(data)    # scale：对数据0均值处理  数据中心化处理
print(result) 
print(np.mean(result,axis=0))      # 每列的平均值  约等于 0
print(np.std(result,axis=0))         # 每列的标准差为 1

范围缩放

个人理解
当数据的每列的数值比较大或相差很大可以用范围缩放把数据缩放到合适大小，当你拿到数据进行均值移除后发现数值相差还是有点大，可以再进行范围缩放（根据数据而论，有些数值大的数据也可以是正太分布数据可以直接进行范围缩放）

import numpy as np

# 初始化数据
data = np.array([[3,-1.5,2,-5.4],
                 [0,4,-0.3,2.1],
                 [1

最低0.47元/天解锁文章

苏建康

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录