机器学习一（3）特征预处理

最新推荐文章于 2024-08-27 15:16:31 发布

p&b

最新推荐文章于 2024-08-27 15:16:31 发布

阅读量204

点赞数

分类专栏： python 文章标签： python 机器学习

本文链接：https://blog.csdn.net/qq_37754696/article/details/109537426

版权

python 专栏收录该内容

4 篇文章 0 订阅

订阅专栏

3.1概念

含义：通过一些转换函数将特征数据转换成更加适合算法模型的特征数据过程，包含归一化、标准化
目标：了解数值型数据、类别型数据特点
应用MinMaxScaler实现对特征数据进行归一化
应用StandardScaler实现对特征数据进行标准化
意义：特征的单位或者大小相差较大，或者某特征的方差相比其他的特征要大出几个数量级，容易影响（支配）目标结果，使得一些算法无法学习到其它的特征。所以要无量纲化，使不同规格的数据转换到同一规格
导入模块

from sklearn.preprocessing import MinMaxScaler, StandardScaler

3.2 归一化

定义：通过对原始数据进行变换把数据映射到(默认为[0,1])之间
API

sklearn.preprocessing.MinMaxScaler (feature_range=(0,1)… )
MinMaxScalar.fit_transform(X)
X:numpy array格式的数据[n_samples,n_features]
返回值：转换后的形状相同的array

实例分析流程
1、实例化MinMaxScalar

2、通过fit_transform转换

import pandas as pd
from sklearn.preprocessing import MinMaxScaler

def minmax_demo():
    """
    归一化演示
    :return: None
    """
    data = pd.read_csv("dating.txt")
    print(data)
    # 1、实例化一个转换器类
    transfer = MinMaxScaler(feature_range=(2, 3))
    ##范围在2-3
    # 2、调用fit_transform
    data = transfer.fit_transform(data[['milage','Liters','Consumtime']])
    print("最小值最大值归一化处理的结果：\n", data)

    return None

因为最大值最小值是变化的，而最大值与最小值非常容易受异常点影响，所以这种方法鲁棒性较差，只适合传统精确小数据场景。
python3的初学者用jupyter导入csv数据

3.3标准化

定义：通过对原始数据进行变换把数据变换到均值为0,标准差为1范围内
对于标准化来说：如果出现异常点，由于具有一定数据量，少量的异常点对于平均值的影响并不大，从而方差改变较小。
在已有样本足够多的情况下比较稳定，适合现代嘈杂大数据场景。
-
API

sklearn.preprocessing.StandardScaler( )
处理之后每列来说所有数据都聚集在均值0附近标准差差为1
StandardScaler.fit_transform(X)
X:numpy array格式的数据[n_samples,n_features]
返回值：转换后的形状相同的array

实例分析
1、实例化StandardScaler

2、通过fit_transform转换

import pandas as pd
from sklearn.preprocessing import StandardScaler

def stand_demo():
    """
    标准化演示
    :return: None
    """
    data = pd.read_csv("dating.txt")
    print(data)
    # 1、实例化一个转换器类
    transfer = StandardScaler()
    # 2、调用fit_transform
    data = transfer.fit_transform(data[['milage','Liters','Consumtime']])
    print("标准化的结果:\n", data)
    print("每一列特征的平均值：\n", transfer.mean_)
    print("每一列特征的方差：\n", transfer.var_)
*****************************************************************************88
     milage     Liters  Consumtime  target
0     40920   8.326976    0.953952       3
1     14488   7.153469    1.673904       2
2     26052   1.441871    0.805124       1
..      ...        ...         ...     ...
997   26575  10.650102    0.866627       3
998   48111   9.134528    0.728045       3
999   43757   7.882601    1.332446       3

[1000 rows x 4 columns]
标准化的结果:
 [[ 0.33193158  0.41660188  0.24523407]
 [-0.87247784  0.13992897  1.69385734]
 [-0.34554872 -1.20667094 -0.05422437]
 ..., 
 [-0.32171752  0.96431572  0.06952649]
 [ 0.65959911  0.60699509 -0.20931587]
 [ 0.46120328  0.31183342  1.00680598]]
每一列特征的平均值：
 [  3.36354210e+04   6.55996083e+00   8.32072997e-01]
每一列特征的方差：
 [  4.81628039e+08   1.79902874e+01   2.46999554e-01]
    return None