sklearn preprocessing 数据预处理（OneHotEncoder）

最新推荐文章于 2024-09-09 17:36:57 发布

张博208

最新推荐文章于 2024-09-09 17:36:57 发布

阅读量2.9k

点赞数

分类专栏： sklearn Python

Python 同时被 2 个专栏收录

158 篇文章 2 订阅

订阅专栏

sklearn

17 篇文章 0 订阅

订阅专栏

1. one hot encoder

sklearn.preprocessing.OneHotEncoder

one hot encoder 不仅对 label 可以进行编码，还可对 categorical feature 进行编码：

>>> from sklearn.preprocessing import OneHotEncoder
>>> enc = OneHotEncoder()

>>> enc.fit([[0, 0, 3], [1, 1, 0], [0, 2, 1], [1, 0, 2]])  

>>> enc.n_values_
array([2, 3, 4])

>>> enc.feature_indices_
array([0, 2, 5, 9])

>>> enc.transform([[0, 1, 1]]).toarray()
array([[ 1.,  0.,  0.,  1.,  0.,  0.,  1.,  0.,  0.]])
 
 1
2
3
4
5
6
7
8
9
10
11
12
13
 
 1
2
3
4
5
6
7
8
9
10
11
12
13

为 OneHotEncoder 类传递进来的数据集：

[[0, 0, 3], 
[1, 1, 0], 
[0, 2, 1], 
[1, 0, 2]]
 
 1
2
3
4
 
 1
2
3
4

每一列代表一个属性，fit 操作之后：

对象enc的n_values_成员变量，记录着每一个属性的最大取值数目，如本例第一个属性：0, 1, 0, 1 ⇒ 2，0, 1, 2, 0 ⇒ 3，3, 0, 1, 2 ⇒ 4；
- 即各个属性（feature）在 one hot 编码下占据的位数；
对象 enc 的 feature_indices_，则记录着属性在新 One hot 编码下的索引位置，
- feature_indices_ 是对 n_values_ 的累积值，不过 feature_indices 的首位是 0；

进一步通过 fit 好的 one hot encoder 对新来的特征向量进行编码：

>>> enc.transform([[0, 1, 1]]).toarray()
array([[ 1.,  0.,  0.,  1.,  0.,  0.,  1.,  0.,  0.]])
 
 1
2
 
 1
2

前 2 位 1, 0，对 0 进行编码
中间 3 位 0, 1, 0 对 1 进行编码；
末尾 4 位 0, 1, 0, 0 对 1 进行编码；

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

张博208

关注关注

0
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

sklearn preprocessing 数据预处理 OneHotEncoder

hftytf的博客

11-06

495

sklearn preprocessing 数据预处理 OneHotEncoder

用sklearn.preprocessing做数据预处理（四）——OneHotEncoder

weixin_44530236的博客

03-02

6154

机器学习时，对于离散的特征基本就是按照one-hot（独热）编码，该离散特征有多少取值，就用多少维来表示该特征。 from sklearn import preprocessing enc = preprocessing.OneHotEncoder() enc.fit([[0, 0, 3], [1, 1, 0], [0, 2, 1], [1, 0, 2]]) # fit来学习编码 enc....

参与评论您还未登录，请先登录后发表或查看评论

干货！使用Scikit-learn对数据进行预处理！

最新发布

2401_86168842的博客

09-09

522

预处理模块的PowerTransformer 转换器支持两种幂变换，分别是Yeo-Johnson幂变换和Box-Cox幂变换，通过method参数来指定。其中，norm参数用来指定归一化所使用的范数类型，支持L1和L2范数，对应的参数值分别为l1和l2。特征的均值为零且方差在同一阶数上，如果个别数据特征不服从标准正态分布，如方差数量级较大，则会影响学习过程，降低模型的准确度。不同的特征之间可能具有量纲和数量级上的差异，归一化可以避免这种差异带来的负面影响，加速优化过程。许多目标函数都是假定所有。

基于sklearn 的one hot encoding

bitcarmanlee的博客

05-21

3万+

1.one hot编码的由来在实际的应用场景中，有非常多的特征不是连续的数值变量，而是某一些离散的类别。比如在广告系统中，用户的性别，用户的地址，用户的兴趣爱好等等一系列特征，都是一些分类值。这些特征一般都无法直接应用在需要进行数值型计算的算法里，比如CTR预估中最常用的LR。那针对这种情况最简单的处理方式是将不同的类别映射为一个整数，比如男性是0号特征，女性为1号特征。这种方式最大的优点就是简单粗

sklearn.preprocessing.OneHotEncoder

每天进步一点点2017

07-12

6493

sklearn.preprocessing.OneHotEncoder(n_values=’auto’, categorical_features=’all’,dtype=, sparse=True,handle_unknown=’error’)用于处理分类变量，将变量的特征值转换为稀疏矩阵主要参数说明： n_values：每个特征的取值个数，可以为auto、整数或整数数组 ①若为au

sklearn.preprocessing.OneHotEncoder()函数介绍

moster.YC的博客

03-16

6381

sklearn.preprocessing.OneHotEncoder()函数介绍 sklearn.preprocessing.OneHotEncoder(categories=‘auto’, drop=None, sparse=True,dtype=np.float64, handle_unknown=‘error’) 本博客主要想对categories参数的使用方法进行说明。下面对OneHo...

Sklearn常用数据预处理方法介绍

weixin_42107106的博客

05-23

1867

主要介绍了Sklearn中常用的数据预处理方法。 数据预处理 1.导入用到的库 import numpy as np import pandas as pd from sklearn.preprocessing import Imputer from sklearn.neighbors import LocalOutlierFactor from sklearn.preprocessing...

sklearn中的数据预处理

一蓑烟雨任平生

09-06

492

机器学习算法最终学习结果的优劣取决于两个主要因素：数据的质量和数据中蕴含的有用信息的数量。一、缺失数据的处理 <一>删除缺失值 1. # Title : TODO 2. # Objective : TODO 3. 5. 6. 7. import numpy as np 8. import pandas as pd 9. from io i...

sklearn专题三：数据预处理

Colorfully_lu的博客

12-15

3676

目录 1 概述 1.1 数据预处理与特征工程数据挖掘的五大流程： 1.2 sklearn中的数据预处理和特征工程 2 数据预处理 Preprocessing & Impute 2.1 数据无量纲化 preprocessing.MinMaxScaler数据归一化 preprocessing.StandardScaler数据标准化 StandardScaler和MinMaxScaler选哪个？ 2.2缺失值 impute.SimpleImputer BONUS：用Pan..

python sklearn preprocessing OneHotEncoder 独热编码 One-Hot

small__roc的博客

02-15

7036

文章目录一、One-Hot 简介二、小案例2.1 加载库2.2 随机生成数据集 --> dataframe2.3 通过 LabelEncoder 将分类变量打上数值标签2.4 进行one-hot编码2.5 转成 dataframe 形式2.6 columns 重命名三、自定义 OneHot 函数一、One-Hot 简介 One-Hot编码，又称为一位有效编码，主要是采用N位状态寄存器来对N个状态进行编码，每个状态都由他独立的寄存器位，并且在任意时候只有一位有效。 One-Hot编码是分类变

对python sklearn one-hot编码详解

12-25

one-hot编码的作用使用one-hot编码，将离散特征的取值扩展到了欧式空间，离散特征的某个取值就对应欧式空间的某个点将离散特征通过one-hot编码映射到欧式空间，是因为，在回归，分类，聚类等机器学习算法中，特征之间距离的计算或相似度的计算是非常重要的，而我们常用的距离或相似度的计算都是在欧式空间的相似度计算，计算余弦相似性，基于的就是欧式空间。 sklearn的一个例子 from sklearn import preprocessing enc = preprocessing.OneHotEncoder() enc.fit([[0, 0, 3], [1, 1, 0], [0, 2

sklearn.preprocessing OneHotEncoder——仅仅是数值型字段才可以，如果是字符类型字段则不能直接搞定...

weixin_33751566的博客

11-22

131

>>> from sklearn.preprocessing import OneHotEncoder >>> enc = OneHotEncoder() >>> enc.fit([[0, 0, 3], [1, 1, 0], [0, 2, 1], [1, 0, 2]]) >>&gt...

【sklearn】数据预处理之独热编码（含两种实现方式+代码理解）

wzk4869的博客

09-14

1万+

【sklearn】数据预处理之独热编码（含两种实现方式+代码理解）

sklearn onehot编码

goodxin_ie的博客

11-15

1312

sklearn onehot编码解读https://www.cnblogs.com/Jerry-home/p/9824085.html 根据训练数据统计特征每一维度的状态数（n_values_属性）根据每一维度的状态数计算该特征所需位数，然后将各维度特征进行onehot编码之后拼接起来（feature_indices_则是各维特征在onehot编码中的起始索引） from sklearn import preprocessing feature = [['红','重','长'],['黑','轻','

关于one-hot编码的sklearn.preprocessing import OneHotEncoder的补充知识

feng_ada2000的博客

08-02

834

今天学到one-hot编码发现了一些以前one-hot编码的问题，现在补充一下：关于one-hot编码的原理就不再说了，大家看其他的博文，下面引入例子：在机器学习算法中，我们经常会遇到分类特征，例如：人的性别有男女，祖国有中国，美国，法国等。这些特征值并不是连续的，而是离散的，无序的。通常我们需要对其进行特征数字化。那什么是特征数字化呢？例子如下：性别特征：[“男”，“女”] 祖国特...

Sklearn之One-hot编码（编码方式、作用、适用场景）