python对数据预处理过程中缺失值或异常值的处理,可以使用sklearn.impute包中的 SimpleImputer
主要参数:
missing_values为数据中的缺失值或异常值,即需要替换的值,
strategy为替换策略参数
- "mean"均值,默认值;
- "median"中位数
- "most_frequent"该特征出现次数最高(即频率最高)的值
# 引入SimpleImputer包
import pandas as pd
from sklearn.impute import SimpleImputer
# 详解:https://scikit-learn.org/dev/modules/generated/sklearn.impute.SimpleImputer.html
# 读取数据,data为DataFrame格式
data = pd.read_csv("K:/UCIdata/agaricus.txt")
imputer = SimpleImputer(missing_values="缺失值/异常值(需要替换的值)", strategy="most_frequent")
# 拟合出频率最大的值并处理缺失异常数据数据,data为数组array形式,如有必要需进行格式转化
data = imputer.fit_transform(data)