机器学习之特征预处理

最新推荐文章于 2023-12-18 11:02:59 发布

走在分布式的路上

最新推荐文章于 2023-12-18 11:02:59 发布

阅读量444

点赞数 2

分类专栏：机器学习 python 文章标签：机器学习特征预处理归一化标准化 sklearn

本文链接：https://blog.csdn.net/weixin_43170863/article/details/100660630

版权

机器学习同时被 2 个专栏收录

7 篇文章 0 订阅

订阅专栏

python

4 篇文章 0 订阅

订阅专栏

特征预处理

通过特定的统计方法(数学方法)将数据转化成算法要求的数据

数值型数据

标准缩放：
- 1.归一化
- 2.标准化
- 3.缺失值

类别型数据

one-hot 编码
关于one-hot编码：https://blog.csdn.net/weixin_43170863/article/details/100184168

时间类型

时间的切分

sklearn特征处理API

sklearn.preprocessing

归一化

特点：通过对原始数据进行变换把数据映射到(默认为[0,1])之间
公式：

X = Xnorm*(mx-mi)+mi
注：作用于每一列，max为一列的最大值，min为一列的最小值，X为最终结果，mx，mi分别为指定区间值默认mx为1，mi为0
缺点：在特定场景下最大值最小值是变化的，另外，最大值与最小值非常容易受异常点影响，所以这种方法鲁棒性较差，只适合传统精确小数据场景。
鲁棒性----反应产品的稳定性

sklearn归一化API

sklearn.preprocessing.MinMaxScalar
MinMaxScalar(feature_range=(0,1))...
- 每个特征缩放到给定范围
MinMaxScalar.fit_transform(X)
- X:numpy array格式的数据[n_samples,n_features]
- 返回值：转换后的形状相同的array

def guiyi():
    """
    归一化处理
    :return:None
    """
    array1 = [[100,4,15,45],[63,41,25,34],[34,31,130,34]]

    # 实例化
    mm = MinMaxScaler(feature_range=(2,4))
    data = mm.fit_transform(array1)
    print(data)

    return None

标准化

特点：通过对原始数据进行变换把数据变换到均值为0，标准差为1范围内
公式
注：作用于每一列，Xmean为平均值，S为标准差
优点：如果出现异常点，由于具有一定数据量，少量的异常点对于平均值的影响并不大，从而方差改变较小。
在已有样本足够多的情况下比较稳定,适合现代嘈杂大数据场景。

sklearn标准化API

sklearn.preprocessing.StandardScaler
- 处理后每列来说所有数据都聚集在均值0附近标准差为1
StandardScaler.fit_transform(X)
StandardScaler.mean_ 原始数据中每列特征的平均值
StandardScaler.std_ 原始数据每列特征的方差

def stand():
    """
    标准化缩放
    :return: None
    """
    list1 = [[4,-1,3],[1,-4,2],[6,6,-1]]
    std = StandardScaler()
    data = std.fit_transform(list1)
    print(data)
    print(std.mean_)
    print(std.scale_)
    return NaN

处理缺失值

删除
插补：添补平均值或中位数
sklearn缺失值API
- sklearn.preprocessing.Imputer
- Imputer(missing_values='NaN',strategy='mean',axis=0)

def im():
   """
   缺失值处理
   :return: None
   """
   im = Imputer(missing_values='NaN',strategy='mean',axis=0)
   data = im.fit_transform([[1,2],[np.nan,3],[4,5]])
   print(data)
   return None