类别型特征处理:sklearn中的one-hot和PCA

本文介绍了在机器学习中如何处理类别型特征,通过sklearn库进行了one-hot编码和PCA降维操作,详细阐述了每个步骤,包括创建类别特征、应用one-hot转换器和PCA转换器,以及将转换应用于测试数据。
摘要由CSDN通过智能技术生成

目录

问题背景

新建一个类别型的特征列

“训练”一个one-hot转换器,并对数据进行转换

“训练”一个PCA转换器

将这个one-hot和PCA应用到测试数据中


问题背景

      在机器学习的分类、聚类等任务中,我们经常会遇到一个或多个类别型的数据特征,如衣服颜色、商品类别等,这些特征的取值之前并无相对大小关系,难以直接作为机器学习模型的输入,因此我们先要对这类特征做转换才能作为模型输入。

对于类别型特征,需要需要做2件事:

(1)进行one-hot转换

(2)进行PCA降维

 

新建一个类别型的特征列

import numpy as np
from sklearn.preprocessing import OneHotEncoder

col = [99,55,99,11,66,44]
col = np.array(col).reshape(len(col), -1)
print(col)
[[99]
 [55]
 [99]
 [11]
 [66]
 [44]]
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值