【Pandas驯化-15】Pandas中几个特征工程函get_dummies、factorize、diff、rank技巧

【Pandas驯化-15】Pandas中几个特征工程函get_dummies、factorize、diff、rank技巧
 
本次修炼方法请往下查看
在这里插入图片描述

🌈 欢迎莅临我的个人主页 👈这里是我工作、学习、实践 IT领域、真诚分享 踩坑集合,智慧小天地!
🎇 相关内容文档获取 微信公众号
🎇 相关内容视频讲解 B站

🎓 博主简介:AI算法驯化师,混迹多个大厂搜索、推荐、广告、数据分析、数据挖掘岗位 个人申请专利40+,熟练掌握机器、深度学习等各类应用算法原理和项目实战经验

🔧 技术专长: 在机器学习、搜索、广告、推荐、CV、NLP、多模态、数据分析等算法相关领域有丰富的项目实战经验。已累计为求职、科研、学习等需求提供近千次有偿|无偿定制化服务,助力多位小伙伴在学习、求职、工作上少走弯路、提高效率,近一年好评率100%

📝 博客风采: 积极分享关于机器学习、深度学习、数据分析、NLP、PyTorch、Python、Linux、工作、项目总结相关的实用内容。

 
 
 
 
 
 
 
 
 
 
 
 
 
 
 


下滑查看解决方法

 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

  

🎯 1. 基本介绍

  pd.get_dummies:有时在进行特征工程时,当某列的值的种类不是大于20且不同的值的label差异性比较大时,像LR算法则一定需要将其进行one-hot编码,即使使用像xgb/gbm这样的算法,进行one-hot编码也会在拟合效果上有想不到的提升,当然如果对算法的速度有特别的要求,则需要去折中选择。
  pd.factorize: 这个函数主要对数据进行编码操作的,将类别数据转换为相关数值型数据
   diff():,在时序问题中,有时需要提取不同时间的差值特征,比如说前一天和后一天的差值,这是可以采用diff方法,其用法如下:

💡 2. 使用方法

2.1 pd.get_dummies函数使用

  使用 get_dummies 创建指示变量。下面为get_dummies的具体用法

import pandas as pd
import numpy as np

# 创建示例 DataFrame
df = pd.DataFrame({
    'Color': ['Green', 'Red', 'Green', 'Blue', 'Red', 'Blue'],
    'Value': [1, 2, 3, 4, 5, 6]
})

# 创建指示变量
dummies_df = pd.get_dummies(df['Color'])

print(dummies_df)

   Blue  Green  Red
0   0.0    1.0   0.0
1   0.0    0.0   1.0
2   0.0    1.0   0.0
3   1.0    0.0   0.0
4   0.0    0.0   1.0
5   1.0    0.0   0.0

2.2 pd.factorize函数使用

  使用 factorize 对分类数据进行编码。函数语法如下:

# 对 'Color' 列进行编码
encoded_df = pd.factorize(df['Color'])

print(encoded_df)

(array([0, 1, 0, 2, 1, 2]), array(['Blue', 'Green', 'Red'], dtype=object))

2.3 pd.diff函数使用

  diff()函数是Pandas中用于计算差分的函数。它可以计算两个相邻元素之间的差异,并返回一个新的Series或DataFrame。

# 计算 'Value' 列的一阶差分
diff_df = df['Value'].diff()

print(diff_df)
0    NaN
1    1.0
2    1.0
3    1.0
4    1.0
5    1.0
Name: Value, dtype: float64

2.4 pd.rank函数使用

  使用 rank 计算排名。可以对dataframe中的某列数据进行从0-1递增的增加数据,这个可以在特征工程中经常会被用到对连续的数据进行排序。

# 计算 'Value' 列的排名
rank_df = df['Value'].rank(method='min')

print(rank_df)
0    1.0
1    2.0
2    3.0
3    4.0
4    5.0
5    6.0
Name: Value, dtype: float64

🔍 3. 注意事项

  对上述的各个函数在使用的过程中需要注意的一些事项,不然可能会出现error,具体主要为:

  • get_dummies 默认情况下会忽略 NaN 值,如果需要包含 NaN,可以设置 drop_first=False。
  • factorize 返回的是编码后的数据和原始类别的映射,适用于处理未知类别。
    使用 diff 时,差分的第一步将是 NaN,因为它没有前一个值进行比较。
  • rank 方法有多种参数可以控制排名的计算方式,如 method 参数可以设置为 ‘min’、‘max’ 或 ‘average’。

🔧 4. 总结

  本文介绍了 Pandas 中的四个特征工程函数:get_dummies、factorize、diff 和 rank。这些函数在处理分类数据、计算数据变化和排名时非常有用。通过实际的代码示例和输出结果,我们可以看到这些函数的应用效果。掌握这些技巧可以帮助你更高效地进行特征工程。希望这篇博客能够帮助你更好地理解并应用这些特征工程技巧。

  • 9
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

一只红花猪

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值