python 三分类的哑编码_机器学习笔记——哑变量处理

最新推荐文章于 2023-06-27 00:00:00 发布

江涛校泵

最新推荐文章于 2023-06-27 00:00:00 发布

阅读量1.1k

点赞数

文章标签： python 三分类的哑编码

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_35861708/article/details/112951106

版权

在机器学习中，类别型特征需要进行哑变量处理以适应模型。本文介绍了R语言的dummy、model.matrix和caret包的dummyVars函数，以及Python中sklearn的OneHotEncoder和pandas的get_dummies方法，用于三分类特征的编码，避免多重共线性问题。

摘要由CSDN通过智能技术生成

在机器学习的特征处理环节，免不了需要用到类别型特征，这类特征进入模型的方式与一般数值型变量有所不同。

通常根据模型的需要，类别型特征需要进行哑变量处理，即按照特征类别进行编码，一般一个类别为k的特征需要编码为一组k-1【避免引起多重共线性】个衍生哑变量，这样就可以表示特征内部所有的类别(将其中基准比较类设为0，当k-1个哑变量都为0时，即为基准类)。

这种哑变量的编码过程在R和Python中的有成熟的方案，而无需我们手动进行编码，使用成熟的编码方案可以提升特征处理的过程。

R语言哑变量处理：

data(iris)

这里仍以iris数据集为例，假设这里的Species变量是要进入模型的其中一个自变量，在建模前需要对齐进行哑变量处理。

方法一——dummy包：

library("dummy")

dumy

dummy函数会自动检查你输入数据集对象中的字符型/因子型变量，并全量输出字符型/因子型变量的哑变量编码结果。注意这里编码结果是全量输出，即类别型特征的每一个类别都有一个编码后的特征。为了编码引起多重共线性，我们需要舍弃一个(代表比较基准类的特征)，这里Species类别变量一共有三个类别：setosa、versicolor 、virginica，各自都有一个对应编码变量，当原始类别变量取对应类别时，则对应类别哑变量位置取值为1，否则为0.

假设这里我们想要对比的基准类是setosa，只需要保留versicolor、virginica对应的编码后变量。那么当versicolor、virg

最低0.47元/天解锁文章

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
python 三分类的哑编码_机器学习笔记——哑变量处理

在机器学习的特征处理环节，免不了需要用到类别型特征，这类特征进入模型的方式与一般数值型变量有所不同。通常根据模型的需要，类别型特征需要进行哑变量处理，即按照特征类别进行编码，一般一个类别为k的特征需要编码为一组k-1【避免引起多重共线性】个衍生哑变量，这样就可以表示特征内部所有的类别(将其中基准比较类设为0，当k-1个哑变量都为0时，即为基准类)。这种哑变量的编码过程在R和Python中的有成熟的...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。