【Pandas驯化-15】Pandas中几个特征工程函get_dummies、factorize、diff、rank技巧

最新推荐文章于 2024-06-27 08:54:05 发布

一只红花猪

最新推荐文章于 2024-06-27 08:54:05 发布

阅读量453

点赞数 9

分类专栏： # Pandas修炼文章标签： pandas 数据分析 python

本文链接：https://blog.csdn.net/lov1993/article/details/139924743

版权

Pandas修炼专栏收录该内容

16 篇文章 0 订阅

订阅专栏

【Pandas驯化-15】Pandas中几个特征工程函get_dummies、factorize、diff、rank技巧

本次修炼方法请往下查看
在这里插入图片描述

🌈 欢迎莅临我的个人主页 👈这里是我工作、学习、实践 IT领域、真诚分享 踩坑集合，智慧小天地！
🎇 相关内容文档获取微信公众号
🎇 相关内容视频讲解 B站

🎓 博主简介：AI算法驯化师，混迹多个大厂搜索、推荐、广告、数据分析、数据挖掘岗位 个人申请专利40+，熟练掌握机器、深度学习等各类应用算法原理和项目实战经验。

🔧 技术专长：在机器学习、搜索、广告、推荐、CV、NLP、多模态、数据分析等算法相关领域有丰富的项目实战经验。已累计为求职、科研、学习等需求提供近千次有偿|无偿定制化服务，助力多位小伙伴在学习、求职、工作上少走弯路、提高效率，近一年好评率100% 。

📝 博客风采：积极分享关于机器学习、深度学习、数据分析、NLP、PyTorch、Python、Linux、工作、项目总结相关的实用内容。

下滑查看解决方法

🎯 1. 基本介绍

pd.get_dummies:有时在进行特征工程时，当某列的值的种类不是大于20且不同的值的label差异性比较大时，像LR算法则一定需要将其进行one-hot编码，即使使用像xgb/gbm这样的算法，进行one-hot编码也会在拟合效果上有想不到的提升，当然如果对算法的速度有特别的要求，则需要去折中选择。
pd.factorize: 这个函数主要对数据进行编码操作的，将类别数据转换为相关数值型数据
diff():，在时序问题中，有时需要提取不同时间的差值特征，比如说前一天和后一天的差值，这是可以采用diff方法，其用法如下：

💡 2. 使用方法

2.1 pd.get_dummies函数使用

使用 get_dummies 创建指示变量。下面为get_dummies的具体用法

import pandas as pd
import numpy as np

# 创建示例 DataFrame
df = pd.DataFrame({
    'Color': ['Green', 'Red', 'Green', 'Blue', 'Red', 'Blue'],
    'Value': [1, 2, 3, 4, 5, 6]
})

# 创建指示变量
dummies_df = pd.get_dummies(df['Color'])

print(dummies_df)

   Blue  Green  Red
0   0.0    1.0   0.0
1   0.0    0.0   1.0
2   0.0    1.0   0.0
3   1.0    0.0   0.0
4   0.0    0.0   1.0
5   1.0    0.0   0.0

2.2 pd.factorize函数使用

使用 factorize 对分类数据进行编码。函数语法如下：

# 对 'Color' 列进行编码
encoded_df = pd.factorize(df['Color'])

print(encoded_df)

(array([0, 1, 0, 2, 1, 2]), array(['Blue', 'Green', 'Red'], dtype=object))

2.3 pd.diff函数使用

diff()函数是Pandas中用于计算差分的函数。它可以计算两个相邻元素之间的差异，并返回一个新的Series或DataFrame。

# 计算 'Value' 列的一阶差分
diff_df = df['Value'].diff()

print(diff_df)
0    NaN
1    1.0
2    1.0
3    1.0
4    1.0
5    1.0
Name: Value, dtype: float64

2.4 pd.rank函数使用

使用 rank 计算排名。可以对dataframe中的某列数据进行从0-1递增的增加数据，这个可以在特征工程中经常会被用到对连续的数据进行排序。

# 计算 'Value' 列的排名
rank_df = df['Value'].rank(method='min')

print(rank_df)
0    1.0
1    2.0
2    3.0
3    4.0
4    5.0
5    6.0
Name: Value, dtype: float64

🔍 3. 注意事项

对上述的各个函数在使用的过程中需要注意的一些事项，不然可能会出现error，具体主要为：

get_dummies 默认情况下会忽略 NaN 值，如果需要包含 NaN，可以设置 drop_first=False。
factorize 返回的是编码后的数据和原始类别的映射，适用于处理未知类别。
使用 diff 时，差分的第一步将是 NaN，因为它没有前一个值进行比较。
rank 方法有多种参数可以控制排名的计算方式，如 method 参数可以设置为 ‘min’、‘max’ 或 ‘average’。

🔧 4. 总结

本文介绍了 Pandas 中的四个特征工程函数：get_dummies、factorize、diff 和 rank。这些函数在处理分类数据、计算数据变化和排名时非常有用。通过实际的代码示例和输出结果，我们可以看到这些函数的应用效果。掌握这些技巧可以帮助你更高效地进行特征工程。希望这篇博客能够帮助你更好地理解并应用这些特征工程技巧。

一只红花猪

关注

9
点赞
踩
7

收藏

觉得还不错? 一键收藏
打赏
0
评论
【Pandas驯化-15】Pandas中几个特征工程函get_dummies、factorize、diff、rank技巧

有时在进行特征工程时，当某列的值的种类不是大于20且不同的值的label差异性比较大时，像LR算法则一定需要将其进行one-hot编码，即使使用像xgb/gbm这样的算法，进行one-hot编码也会在拟合效果上有想不到的提升，当然如果对算法的速度有特别的要求，则需要去折中选择。这个函数主要对数据进行编码操作的，将类别数据转换为相关数值型数据本文介绍了 Pandas 中的四个特征工程函数：get_dummies、factorize、diff 和 rank。
复制链接

扫一扫