特征提取之pd.get_dummies()用法

最新推荐文章于 2024-01-08 11:19:02 发布

那记忆微凉

最新推荐文章于 2024-01-08 11:19:02 发布

阅读量2.5w

点赞数 28

分类专栏：笔记 Python

本文链接：https://blog.csdn.net/bigdata_mining/article/details/104105384

版权

Python 同时被 2 个专栏收录

54 篇文章 9 订阅

订阅专栏

笔记

3 篇文章 2 订阅

订阅专栏

背景：

在拿到的数据里，经常有分类型变量的存在，如下：
球鞋品牌：Nike、adidas、 Vans、PUMA、CONVERSE
性别：男、女
颜色：红、黄、蓝、绿
However,sklearn大佬不能直接分析这类变量呀。在回归，分类，聚类等机器学习算法中，特征之间距离的计算或相似度的计算是算法关键部分，而常用的距离或相似度的计算都是在欧式空间的相似度计算，计算余弦相似性，基于的就是欧式空间。于是，我们要对这些分类变量进行哑变量处理，又或者叫虚拟变量。
缺点：
当类别的数量很多时，特征空间会变得非常大。在这种情况下，一般可以用PCA来减少维度。而且one hot encoding+PCA这种组合在实际中也非常有用。有些基于树的算法在处理变量时，并不是基于向量空间度量，数值只是个类别符号，即没有偏序关系，所以不用进行独热编码。Tree Model不太需要one-hot编码：对于决策树来说，one-hot的本质是增加树的深度。
In summary,要是one hot encoding的类别数目不太多，可优先考虑。

一.pd.get_dummies()简单&粗暴

pandas.get_dummies(data, prefix=None, prefix_sep='_', 
			dummy_na=False, columns=None, 
			sparse=False, drop_first=False, dtype=None)

官网文档：
http://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.get_dummies.html

输入：array-like, Series, or DataFrame
输出：DataFrame

主要参数说明：

data : array-like, Series, or DataFrame
prefix : 给输出的列添加前缀，如prefix="A",输出的列会显示类似
prefix_sep : 设置前缀跟分类的分隔符sepration，默认是下划线"_"

一般，我们输入data就够了。如果要专门关注Nan这类东东，可设置dummy_na=True，专门生成一列数据。
见下面的栗子：（简直不要太容易）

import numpy as np
import pandas as pd
data = pd.DataFrame({"学号":[1001,1002,1003,1004],
                    "性别":["男","女","女","男"],
                    "学历":["本科","硕士","专科","本科"]})
data

学历学号性别
0 本科 1001 男
1 硕士 1002 女
2 专科 1003 女
3 本科 1004 男

pd.get_dummies(data)

学号学历_专科学历_本科学历_硕士性别_女性别_男
0 1001 0 1 0 0 1
1 1002 0 0 1 1 0
2 1003 1 0 0 1 0
3 1004 0 1 0 0 1

pd.get_dummies(data,prefix="A")

学号 A_专科 A_本科 A_硕士 A_女 A_男
0 1001 0 1 0 0 1
1 1002 0 0 1 1 0
2 1003 1 0 0 1 0
3 1004 0 1 0 0 1

pd.get_dummies(data,prefix=["A","B"],prefix_sep="+")

学号 A+专科 A+本科 A+硕士 B+女 B+男
0 1001 0 1 0 0 1
1 1002 0 0 1 1 0
2 1003 1 0 0 1 0
3 1004 0 1 0 0 1

二.

将指定列进行get_dummies 后合并到元数据中

data = data.join(pd.get_dummies(data.性别))

那记忆微凉

关注

28
点赞
踩
185

收藏

觉得还不错? 一键收藏
1
评论
特征提取之pd.get_dummies()用法

背景：在拿到的数据里，经常有分类型变量的存在，如下：球鞋品牌：Nike、adidas、 Vans、PUMA、CONVERSE性别：男、女颜色：红、黄、蓝、绿However,sklearn大佬不能直接分析这类变量呀。在回归，分类，聚类等机器学习算法中，特征之间距离的计算或相似度的计算是算法关键部分，而常用的距离或相似度的计算都是在欧式空间的相似度计算，计算余弦相似性，基于的就是欧式空间。于...
复制链接

扫一扫

专栏目录