数据分析与挖掘2——数据预处理

Mrs.King_UP

于 2021-09-17 16:45:46 发布

阅读量589

点赞数

分类专栏：数据分析与挖掘文章标签： sklearn 机器学习数据挖掘数据分析

本文链接：https://blog.csdn.net/qq_38936560/article/details/120352260

版权

数据分析与挖掘专栏收录该内容

3 篇文章 0 订阅

订阅专栏

数据预处理

1.缺失值处理
2.异常值处理
3.变量转换

1.缺失值处理

查看缺失值

train_data.info()#可以查看特征的确实情况

import missingno as msno
msno.matrix(train_data,labels=True)#可以一目了然的看到每个变量的缺失情况
msno.bar(train_data)#条形图显示缺失值情况

在这里插入图片描述

删除：适用于数据量较大（记录较多）且缺失比较较小的情形，去掉后对总体影响不大。

缺失值较少，删除包含缺失值的行，train_data.dropna()
删除缺失值大于80%的列，train_data.dropna(thresh=len(data)*0.2, axis=1)
某一列缺失严重，删除某列，train_data.drop(['V0','V1'],axis=1,inplace=True)
丢弃某几列有缺失的行，train_data.dropna(axis=0, subset=['a','b'], inplace=True)
其中，axis=1表示行，inplace=True表示替换掉原始数据

填充：缺失值填充之前，先了解缺失的变量含义。

平均值适用于近似正态分布数据，观测值较为均匀散布均值周围；
中位数适用于偏态分布或者有离群点数据，中位数是更好地代表数据中心趋势；
众数一般用于类别变量，无大小、先后顺序之分。

from scipy import stats
# 均值填充
data['col'] = data['col'].fillna(data['col'].means())
# 中位数填充
data['col'] = data['col'].fillna(data['col'].median())
# 众数填充
data['col'] = data['col'].fillna(stats.mode(data['col'])[0][0])

也可以借助Imputer类处理缺失

from sklearn.preprocessing import Imputer
imr = Imputer(missing_values='NaN', strategy='mean', axis=0)
imputed_data =pd.DataFrame(imr.fit_transform(df.values),columns=df.columns)#使用均值填充df.columns列
imputed_data

预测模型填充：将没有缺失值的用作训练集，有缺失值的为测试集；缺失变量为target，可以用分类or回归进行预测

fancyimpute 类

from fancyimpute import KNN
fill_knn = KNN(k=3).fit_transform(data)
data = pd.DataFrame(fill_knn)

sklearn类

from sklearn.neighbors import KNeighborsClassifier, KNeighborsRegressor
def knn_filled_func(x_train, y_train, test, k = 3, dispersed = True):
    # params: x_train 为目标列不含缺失值的数据（不包括目标列）
    # params: y_train 为不含缺失值的目标列
    # params: test 为目标列为缺失值的数据（不包括目标列）
    if dispersed:
        knn= KNeighborsClassifier(n_neighbors = k, weights = "distance")
    else:
        knn= KNeighborsRegressor(n_neighbors = k, weights = "distance")
    knn.fit(x_train, y_train)
    return test.index, knn.predict(test)

随机森林：利用已有数据拟合模型，对缺失变量进行预测

from sklearn.ensemble import RandomForestRegressor, RandomForestClassifier
 
 
def knn_filled_func(x_train, y_train, test, k = 3, dispersed = True):
    # params: x_train 为目标列不含缺失值的数据（不包括目标列）
    # params: y_train 为不含缺失值的目标列
    # params: test 为目标列为缺失值的数据（不包括目标列）
    if dispersed:
        rf= RandomForestRegressor()
    else:
        rf= RandomForestClassifier()
    rf.fit(x_train, y_train)
    return test.index, rf.predict(test)

2.异常值处理

通过箱线图观测到异常值
处理方法：

删除：异常值很小，直接删除
转换：取对数的方式，会减轻由极值引起的变化
填充：和处理缺失值一样

3.变量转换

使用直方图和核密度估计对特征分布进行分析，发现一些变量取值不均匀，所以要进行变换，使其落在合理的范围内.（很多模型前提条件是基于正态分布的，为了满足此条件，要对数据进行变换）

此变量分布向右倾斜，可以采取取平方根、立方根、对数的方式；对于向左倾斜的分布，采取平方、立方、指数的方式；

训练集和测试集分布不一致，将会导致模型泛化能力差，所以这种特征要删除或者进行变换

plt.figure(figsize=(5,5),dpi=80)#figsize中的第一个参数为图片宽度，第二个参数为图片长度
ax=sns.kdeplot(train_data['V5'],color='red',shade=True)
ax=sns.kdeplot(test_data['V5'],color='blue',shade=True)
ax.set_xlabel('V5')
ax.set_ylabel('Frequency')
ax=ax.legend(['train','test'])