机器学习、数据建模、数据挖掘分析特征无量纲化的常见操作方法

最新推荐文章于 2023-04-03 15:51:01 发布

码奋

最新推荐文章于 2023-04-03 15:51:01 发布

阅读量1k

点赞数 2

分类专栏： Tensorflow2.0学习 Python学习

本文链接：https://blog.csdn.net/qq_43060552/article/details/104471649

版权

Python学习同时被 2 个专栏收录

51 篇文章 4 订阅

订阅专栏

Tensorflow2.0学习

13 篇文章 6 订阅

订阅专栏

在进行特征选择之前，一般会先进行数据无量纲化处理，这样，表征不同属性（单位不同）的各特征之间才有可比性，如2cm 与 0.2kg 你怎么比？无量纲处理方法很多，使用不同的方法，对最终的机器学习模型会产生不同的影响。通常采用的方法就是归一化，Normalization之类的方法。

from sklearn.datasets import load_iris  
#导入IRIS数据集  
iris = load_iris()

#标准化，返回值为标准化后的数据  
from sklearn.preprocessing import StandardScaler  
StandardScaler().fit_transform(iris.data)  

#区间缩放，返回值为缩放到[0, 1]区间的数据  
from sklearn.preprocessing import MinMaxScaler  
MinMaxScaler().fit_transform(iris.data)  

#归一化，返回值为归一化后的数据
from sklearn.preprocessing import Normalizer  
Normalizer().fit_transform(iris.data)

在这里插入图片描述
Iris数据集是机器学习任务中常用的分类实验数据集，由Fisher在1936收集整理。Iris中文名是安德森鸢尾花卉数据集，英文全称是Anderson’s Iris data set，是一类多重变量分析的数据集。Iris一共包含150个样本，分为3类，每类50个数据，每个数据包含4个属性。可通过花萼长度，花萼宽度，花瓣长度，花瓣宽度4个属性预测鸢尾花卉属于（Setosa，Versicolour，Virginica）三个种类中的哪一类。

码奋

关注

2
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
机器学习、数据建模、数据挖掘分析特征无量纲化的常见操作方法

在进行特征选择之前，一般会先进行数据无量纲化处理，这样，表征不同属性（单位不同）的各特征之间才有可比性，如2cm 与 0.2kg 你怎么比？无量纲处理方法很多，使用不同的方法，对最终的机器学习模型会产生不同的影响。通常采用的方法就是归一化，Normalization之类的方法。from sklearn.datasets import load_iris #导入IRIS数据集 iris =...
复制链接

扫一扫