sklearn preprocessing 数据预处理（OneHotEncoder）

最新推荐文章于 2024-07-17 01:42:37 发布

五道口纳什

最新推荐文章于 2024-07-17 01:42:37 发布

阅读量2.8w

点赞数 5

分类专栏： numpy-scipy-pandas-sklearn-xgb

本文链接：https://blog.csdn.net/lanchunhui/article/details/72794317

版权

numpy-scipy-pandas-sklearn-xgb 专栏收录该内容

20 篇文章 2 订阅

订阅专栏

0. StandardScaler

去均值时，在测试集上进行预测时减去的均值是训练集上得到的均值；

import sklearn.preprocessing as prep

def standard_scale(X_train, X_test):
	preprocessor = prep.StandardScaler().fit(X_train)
	X_train = preprocessor.transform(X_train)
	X_test = preprocessor.transform(X_test)
	return X_train, X_test

1. one hot encoder

sklearn.preprocessing.OneHotEncoder

one hot encoder 不仅对 label 可以进行编码，还可对 categorical feature 进行编码：

>>> from sklearn.preprocessing import OneHotEncoder
>>> enc = OneHotEncoder()

>>> enc.fit([[0, 0, 3], [1, 1, 0], [0, 2, 1], [1, 0, 2]])  

>>> enc.n_values_
array([2, 3, 4])

>>> enc.feature_indices_
array([0, 2, 5, 9])

>>> enc.transform([[0, 1, 1]]).toarray()
array([[ 1.,  0.,  0.,  1.,  0.,  0.,  1.,  0.,  0.]])

为 OneHotEncoder 类传递进来的数据集：

[[0, 0, 3], 
[1, 1, 0], 
[0, 2, 1], 
[1, 0, 2]]

每一列代表一个属性，fit 操作之后：

对象enc的n_values_成员变量，记录着每一个属性的最大取值数目，如本例第一个属性：0, 1, 0, 1 ⇒ 2，0, 1, 2, 0 ⇒ 3，3, 0, 1, 2 ⇒ 4；
- 即各个属性（feature）在 one hot 编码下占据的位数；
对象 enc 的 feature_indices_，则记录着属性在新 One hot 编码下的索引位置，
- feature_indices_ 是对 n_values_ 的累积值，不过 feature_indices 的首位是 0；

进一步通过 fit 好的 one hot encoder 对新来的特征向量进行编码：

>>> enc.transform([[0, 1, 1]]).toarray()
array([[ 1.,  0.,  0.,  1.,  0.,  0.,  1.,  0.,  0.]])

前 2 位 1, 0，对 0 进行编码
中间 3 位 0, 1, 0 对 1 进行编码；
末尾 4 位 0, 1, 0, 0 对 1 进行编码；

五道口纳什

关注

5
点赞
踩
23

收藏

觉得还不错? 一键收藏
打赏
5
评论
sklearn preprocessing 数据预处理（OneHotEncoder）

hot encoder 不仅对 label 可以进行编码，还可对 categorical feature 进行编码：
复制链接

扫一扫

专栏目录