sklearn之OneHotEncoder

One-Hot编码是将类别特征转化为等地位的向量表示,避免数值排序影响算法效果。sklearn库中的OneHotEncoder用于实现这一过程。代码示例展示了如何使用OneHotEncoder对不同数量特征进行编码,并解释了参数如n_values、categorical_features、dtype和handle_unknown的作用。
摘要由CSDN通过智能技术生成

一、简介

OneHotEncoder(n_values = 'auto',categorical_features='all',dtype=<class 'numpy.float64'),sparse=True,handle_unknown = 'error')
  • 1、One-Hot编码也称为“独热”式编码,既然独热是只能有一位是“发光”的。在众多特征中仅仅有一个特征起作用。
  • 2、比如红绿灯有三个特征红色、绿色、黄色,对这三种特征进行数字化处理,我们可以简单的通过定义红色=1、绿色=2、黄色=3来进行分类,这种分类实现的是标签编码,即给不同的类别打上标签。简单分类的弊端是机器可能会根据数值进行排序,从而导致了红色<绿色<黄色,我们事实只想让机器去区分他们,某方面说他们的地位相等。
  • 3、为了地位相等我们使用了One-Hot编码,红色(1,0,0)、绿色(0,1,0)、黄色(0,0,1)。这种情况下,每两个向量之间的距离都是根号2,在向量空间中的距离是相等的,基本不会影响基于向量空间度量算法的效果。也可以看出来每次只有一位是1。

二、代码操作及参数详解

  • 1、简答的代码操作
from sklearn.preprocessing import  OneHotEncoder

enc = OneHotEncoder()
enc.fit([[0, 0, 3],
         [1, 1, 0],
         [0, 2, 1],
         [1, 0, 2]])

ans = enc.transform([[0, 1, 3]]).toarray()
 # 如果不
  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值