类别型特征处理：sklearn中的one-hot和PCA

最新推荐文章于 2024-06-20 21:10:40 发布

英国老鼠_

最新推荐文章于 2024-06-20 21:10:40 发布

阅读量4.3k

点赞数 5

分类专栏：机器学习ML 文章标签： sklearn pca one-hot 机器学习

本文链接：https://blog.csdn.net/hwj_wayne/article/details/104062961

版权

本文介绍了在机器学习中如何处理类别型特征，通过sklearn库进行了one-hot编码和PCA降维操作，详细阐述了每个步骤，包括创建类别特征、应用one-hot转换器和PCA转换器，以及将转换应用于测试数据。

摘要由CSDN通过智能技术生成

问题背景

新建一个类别型的特征列

“训练”一个one-hot转换器，并对数据进行转换

“训练”一个PCA转换器

将这个one-hot和PCA应用到测试数据中

问题背景

在机器学习的分类、聚类等任务中，我们经常会遇到一个或多个类别型的数据特征，如衣服颜色、商品类别等，这些特征的取值之前并无相对大小关系，难以直接作为机器学习模型的输入，因此我们先要对这类特征做转换才能作为模型输入。

对于类别型特征，需要需要做2件事：

（1）进行one-hot转换

（2）进行PCA降维

新建一个类别型的特征列

import numpy as np
from sklearn.preprocessing import OneHotEncoder

col = [99,55,99,11,66,44]
col = np.array(col).reshape(len(col), -1)
print(col)

[[99]
 [55]
 [99]
 [11]
 [66]
 [44]]

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

英国老鼠_

关注关注

5
点赞
踩
17

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

对python sklearn one-hot编码详解

12-25

one-hot编码的作用使用one-hot编码，将离散特征的取值扩展到了欧式空间，离散特征的某个取值就对应欧式空间的某个点 ...enc = preprocessing.OneHotEncoder() enc.fit([[0, 0, 3], [1, 1, 0], [0, 2

【NLP学习笔记】One-hot encoding：独热编码

学习带来的快乐最持久~

07-13

4149

一、存在问题在机器学习算法中，特征并不总是连续值，常会遇到分类特征是离散的、无序的。例如：性别有男、女，城市有北京，上海，深圳等。离散特征的编码分为两种情况：离散特征的取值之间没有大小的意义，比如color：[red,blue]，那么就使用one-hot编码离散特征的取值有大小的意义，比如size:[X,XL,XXL]，那么就使用数值的映射{X:1,XL:2,XXL:3} 性别特征：[“男”，“女”] = [ 0，1 ] 地区特征：[“北京”，"上海，“深圳”] = [ 0，1，2 ] 工作特

参与评论您还未登录，请先登录后发表或查看评论

Sklearn之One-hot编码（编码方式、作用、适用场景）

小白白的博客

08-05

4万+

（作者：陈玓玏）一、为什么要用做One-hot编码？在建模过程中，我们通常会碰到各种类型的属性，如果是标称型属性，也就是不具备序列性、不能比较大小的属性，通常我们不能用简单的数值来粗暴替换。因为属性的数值大小会影响到权重矩阵的计算，不存在大小关系的属性，其权重也不应该发生相应的变化，那么我们就需要用到One-hot编码（也有人称独热编码）这种特殊的编码方式了。二、One-hot编码...

python sklearn preprocessing OneHotEncoder 独热编码 One-Hot

small__roc的博客

02-15

7049

文章目录一、One-Hot 简介二、小案例2.1 加载库2.2 随机生成数据集 --> dataframe2.3 通过 LabelEncoder 将分类变量打上数值标签2.4 进行one-hot编码2.5 转成 dataframe 形式2.6 columns 重命名三、自定义 OneHot 函数一、One-Hot 简介 One-Hot编码，又称为一位有效编码，主要是采用N位状态寄存器来对N个状态进行编码，每个状态都由他独立的寄存器位，并且在任意时候只有一位有效。 One-Hot编码是分类变

【机器学习技巧】之特征工程：数字编码以及One-hot独热编码的几种方式（sklearn与pandas处理方式)

阿旭的博客

11-17

2278

【机器学习技巧】之特征工程：数字编码以及One-hot独热编码的几种方式（sklearn与pandas处理方式)

数据清洗，pca，one-hot编码，auc

m0_46519036的博客

06-18

1270

鸢尾花有4个特征，不容易画图，我们可以使用PCA降维因为有 150个数据，每个数据有4个特征，所以是一个（150，4）的矩阵，使用PCA降维，XTX可以得到一个4行4列的矩阵，然后可以得到它的特征值和特征向量，得到特征值λ1，λ2，λ3，λ4和特征向量μ1，μ2，μ3，μ4.将λ从大到小排列，可以找到哪个特征向量μ的方向对结果影响最大，选择前两个μ建立坐标系。将样本投影到这个坐标系中考察降维后的样本方差：选择好特征该如何分类呢有的时候用直线没有很好的分类，这时候需要把特征升维，比如3个特...

sklearn中多种编码方式——category_encoders（one-hot多种用法）

素质云笔记

08-06

2万+

离散型编码的Python库，里面封装了十几种（包括文中的所有方法）对于离散型特征的编码方法，接口接近于Sklearn通用接口，非常实用可以使用多种不同的编码技术把类别变量转换为数值型变量，并且符合sklearn模式的转换。官方github：https://github.com/scikit-learn-contrib/category_encoders 官方文档：http://contrib.scikit-learn.org/category_encoders/# 这个库的作者将类别编码分为两类,无

sklearn_tools:我在 Scikit-Learn 中使用的代码片段集合

07-07

1. **数据预处理**：预处理是机器学习中至关重要的一步，包括特征缩放（如StandardScaler或MinMaxScaler）、编码分类变量（如LabelEncoder或OneHotEncoder）、缺失值处理（如SimpleImputer）等。"sklearn_tools"可能...

掌握了这个之后，数据挖掘竞赛稳拿top10：利用Sklearn库进行特征工程处理

12-22

`sklearn.preprocessing.LabelEncoder` 和 `OneHotEncoder` 可实现此过程。 - 缺失值处理：对缺失值进行填充，可以选择使用平均值、中位数或众数等方法。`sklearn.impute.SimpleImputer` 提供了多种填充策略。 - ...

机器学习-sklearn-项目学习大全

热门推荐

赵英超的博客

01-03

7万+

一. 什么是独热编码？ ———————————————————————————————————————— 在机器学习算法中，我们经常会遇到分类特征，例如：人的性别有男女，祖国有中国，美国，法国等。这些特征值并不是连续的，而是离散的，无序的。通常我们需要对其进行特征数字化。那什么是特征数字化呢？例子如下：性别特征：["男"，"女"] 祖国特征：["中国"，"美国，"法国"...

使用pandas和sklearn对分类特征进行OneHot编码的几种方法

胖胖大海的博客

04-17

6702

进行OneHot编码常用的几种方法: 首先介绍一下将分类属性数字化的方法。构造带有分类特征的数据集。方法一：使用sklearn中的LabelEncoder将分类特征数字化方法二：使用pandas的factorize()函数将分类特征数字化下面介绍一下将分类特征进行OneHot编码的几种方法。方法一：先LabelEncoder，再OneHotEncoder ...

sklearn综合示例9：分类问题的onehot与预测阈值调整

jediael_lu的专栏

07-16

3985

本文介绍了：如何将多个标签做onehot，比如说总共有1000个标签，用户带了其中100个标签，那就是一个1000维的feautre，其中100维=1，其余900维=0。调整分类算法的分类阈值，比如将LR中的默认阈值从0调整到0.9，降低recall提升精度。各种算法的使用方式。 1、数据预处理样本格式最终得到的样本格式如下，第一列是label，第二列是一“|”分割的一些特征，可以理解为用户观看了哪部电影，喜欢哪本书，关注了哪个微博id等。 label,features 1,20018 0,2

Scikit-Learn中的OneHotEncoder是如何处理分类数据的？

2401_85742452的博客

06-20

582

Scikit-Learn（简称sklearn）中的是一种用于处理分类数据的预处理工具。它将分类数据（也称为名义数据）转换为一种数值形式，使得机器学习算法能够更好地处理这些数据。以下是。

Numpy与Pandas、Sklearn中one-hot快速编码方法

肖永威的专栏

12-18

1万+

Numpy与Pandas、Sklearn中one-hot快速编码方法

【sklearn】数据预处理之独热编码（含两种实现方式+代码理解）

wzk4869的博客

09-14

1万+

【sklearn】数据预处理之独热编码（含两种实现方式+代码理解）

onehot在python(sklearn)中的使用方法，示例，代码实现

qq_30545831的博客

03-20

2107

首先强调一下，本篇博客是我实验得出来的结论，要是错了，可以在评论区指正，嘻嘻接下来我会介绍以下三个内容为什么要用onehot 怎么用为什么要用onehot: 假设你有一个这样的数据集，格式是csv或者arff格式：体重身高 ... class 胖 1 5 0 ... 不好看瘦 1 6 0 ... 还可以有点...