python机器学习之数据的预处理（五种方式数据处理案例详解）

最新推荐文章于 2025-04-08 11:34:17 发布

黎明之道

最新推荐文章于 2025-04-08 11:34:17 发布

阅读量1.8w

点赞数 26

分类专栏：机器学习文章标签： python 机器学习数据分析大数据数据挖掘

本文链接：https://blog.csdn.net/sjjsaaaa/article/details/110324454

版权

本文详细介绍了Python中机器学习数据预处理的五种方法：归一化、标准化、缺失值填充、处理分类型特征（标签编码、独热编码）以及连续型特征的二值化和分段处理。通过实例展示了如何使用sklearn和numpy进行数据预处理，强调了在不同场景下选择合适预处理方法的重要性。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

数据的预处理

数据下载地址——>点这里下载

到入文件时可以直接复制地址然后用r" "包裹起来。
例如：data = pd.read_cav(r"C:\work\data.csv")
或者也可以以直接将\换成//也可以导入。

在sklearn当中，我们使用preprocessing.MinMaxScaler来实现这个功能。MinMaxScaler有一个重要参数，feature_range，控制我们希望把数据压缩到的范围，默认是[0,1]。
在这里插入图片描述

导入库和数据

from sklearn.preprocessing import MinMaxScaler
data = [[-1,2],[-0.5,6],[0,10],[1,18]]
import pandas as pd
pd.DataFrame(data)

在这里插入图片描述
进行归一化处理

scaler = MinMaxScaler()#实例化
scaler = scaler.fit(data)#fit.在这里是生成min(x)和max(x)
result = scaler.transform(data)#通过接口 导出结果
result

在这里插入图片描述
也可以一步达成训练和导出结果

result_ =scaler.transform(data)#训练和导出结果一步达成
result_x

在这里插入图片描述
将归一化的数据逆转为原数据

scaler.inverse_transform(result)#将归一化后的结果逆转

在这里插入图片描述
将范围设置为[0,5]

data = [[-1,2],[-0.5,6],[0,10],[1,18]]
scaler = MinMaxScaler(feature_range=[5,10])#实例化带范围5-10
result = scaler.fit_transform(data)#一步导出结果
result

在这里插入图片描述
当数据量多于大时，使用：

# scaler = scaler.partial_fit(data)  #大数据使用

使用numpy处理数据归一化

import numpy as np
X= np.array([[-1, 2], [-0.5, 6], [0, 10], [1, 18]])
#归一化
X_nor= (X -  X.min(axis=0)) /(X.max(axis=0) - X.min(axis=0))
X_nor

在这里插入图片描述
逆转归一化：

#逆转归一化
X_returned= X_nor *(X.max(axis=0)