机器学习基础DAY2

最新推荐文章于 2024-08-03 16:02:00 发布

Lin叮当

最新推荐文章于 2024-08-03 16:02:00 发布

阅读量191

点赞数

分类专栏：机器学习基础文章标签：机器学习

本文链接：https://blog.csdn.net/gtt683559/article/details/109502697

版权

机器学习基础专栏收录该内容

8 篇文章 0 订阅

订阅专栏

第二章数据特征预处理

1.定义：
通过特定的统计方法（数学方法）将数据转换成算法要求的数据
2.数值型数据：标准缩放：
（1）归一化
（2）标准化
（3）缺失值
类别型数据：one-hot编码
时间类型：时间的切分

（1）归一化
特点：通过对原始数据进行变换把数据映射到(默认为[0,1])之间
在这里插入图片描述
注：作用于每一列，max为一列的最大值，min为一列的最小值,那么X’'为最终结果，mx，mi分别为指定区间值默认mx为1,mi为0
sklearn 关于特征处理的API：sklearn. preprocessing
归一化API：sklearn.preprocessing.MinMaxScaler
######MinMaxScalar(feature_range=(0,1)…)
每个特征缩放到给定范围(默认[0,1])
###### MinMaxScalar.fit_transform(X)
X:numpy array格式的数据[n_samples,n_features]
返回值：转换后的形状相同的array

def mm():
    mm = MinMaxScaler(feature_range=(2,3))#feature_range用来指定缩放的范围，默认在（0,1）
    data = mm.fit_transform([[90,2,10,40],[60,4,15,45],[75,3,13,46]])
    print(data)

    return None

结果如下：
在这里插入图片描述
什么时候用归一化？
几个特征同等重要时，为了使某一个特征不会对结果造成更大的影响可以用归一化
注意：
在特定场景下最大值最小值是变化的，另外，最大值与最小值非常容易受异常点影响，所以这种方法鲁棒（稳定）性较差，只适合传统精确小数据场景。
（2）标准化
特点：通过对原始数据进行变换把数据变换到均值为0,方差为1范围内
在这里插入图片描述

如果出现异常点，由于具有一定数据量，少量的异常点对于平均值的影响并不大，从而方差改变较小。
标准化API: scikit-learn.preprocessing.StandardScaler
######StandardScaler(…)
处理之后每列来说所有数据都聚集在均值0附近方差为1
######StandardScaler.fit_transform(X,y)
X:numpy array格式的数据[n_samples,n_features]
返回值：转换后的形状相同的array
######StandardScaler.mean_
原始数据中每列特征的平均值
######StandardScaler.std_
原始数据每列特征的方差

def stand():
    std= StandardScaler()
    data = std.fit_transform([[ 1., -1., 3.],[ 2., 4., 2.],[ 4., 6., -1.]])
    print(data)

    return None

结果如下：
在这里插入图片描述
标准化适用在已有样本足够多的情况下比较稳定，适合现代嘈杂大数据场景。

（3）缺失值
在这里插入图片描述
缺失值API: sklearn.preprocessing.Imputer
######Imputer(missing_values=‘NaN’, strategy=‘mean’, axis=0)
完成缺失值插补
######Imputer.fit_transform(X,y)
X:numpy array格式的数据[n_samples,n_features]
返回值：转换后的形状相同的array
注意：numpy的数组中可以使用np.nan/np.NaN来代替缺失值，属于float类型
如果是文件中的一些缺失值，可以替换成nan，通过np.array转化成float型的数组即可

from sklearn.impute import SimpleImputer
import numpy as np
def im():
    imputer=SimpleImputer(missing_values=np.nan,strategy='mean')
    data=imputer.fit_transform([[1, 2], [np.nan, 3], [7, 6]])
    print(data)
    return None

结果：在这里插入图片描述
前路漫漫，加油皮卡丘！！！

Lin叮当

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
机器学习基础DAY2

第二章数据特征预处理1.定义：通过特定的统计方法（数学方法）将数据转换成算法要求的数据2.数值型数据：标准缩放：（1）归一化（2）标准化（3）缺失值类别型数据：one-hot编码时间类型：时间的切分（1）归一化特点：通过对原始数据进行变换把数据映射到(默认为[0,1])之间注：作用于每一列，max为一列的最大值，min为一列的最小值,那么X’’为最终结果，mx，mi分别为指定区间值默认mx为1,mi为0sklearn 关于特征处理的API：sklearn. preprocess
复制链接

扫一扫