Sklearn 中 OneHotEncoder 解析

最新推荐文章于 2025-06-22 07:13:36 发布

智商25的憨憨

最新推荐文章于 2025-06-22 07:13:36 发布

阅读量3.9k

点赞数 1

CC 4.0 BY-SA版权

分类专栏：代码机器学习

本文链接：https://blog.csdn.net/gxc19971128/article/details/106932288

博客解析了Sklearn库中的OneHotEncoder如何对离散特征进行one-hot编码，强调了handle_unknown参数的重要性，并通过实例展示了编码过程。OneHotEncoder将离散特征转换为连续特征，便于数据处理和归一化。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

将离散型特征使用one-hot编码，会让特征之间的距离计算更加合理。离散特征进行one-hot编码后，编码后的特征，其实每一维度的特征都可以看做是连续的特征。就可以跟对连续型特征的归一化方法一样，对每一维特征进行归一化。

from sklearn.preprocessing import OneHotEncode

参数：

OneHotEncoder(n_values=’auto’,  categorical_features=’all’,  dtype=<class ‘numpy.float64’>,  sparse=True,  handle_unknown=’error’)

handle_unknown是一个比较有用的参数，默认是"error"，指定为"ignore”更好，这个参数的目的是数据在转化为one-hot编码时，如果遇到一个属性值没有事先指定，程序应该怎么办？如果是error的话，程序就报错停止了，其实不方便处理数据，反而是ignore更好，程序可以继续执行
一个例子：

enc = OneHotEncoder()

enc.fit([["男", 0, 3], ["男", 1, 0], ["女", 2, 1], ["女", 0, 2]])

首先训练一下数据集，提取每一列的属性种类：

print(enc.categories_)
[array(['女', '男'], dtype=object), array([0, 1, 2], dtype=object), array([0, 1, 2, 3], dtype=object)]

一个例子：

from sklearn.preprocessing import  OneHotEncoder

enc = OneHotEncoder()
enc.fit([[0, 0, 3],
         [1, 1, 0],
         [0, 2, 1],
         [1, 0, 2]])

# 如果不加 t