别再对分类变量进行独热编码！你还有更好的选择

最新推荐文章于 2024-08-28 11:13:02 发布

「已注销」

最新推荐文章于 2024-08-28 11:13:02 发布

阅读量1k

点赞数

文章标签：人工智能机器学习 python 数据分析计算机视觉

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/duxinshuxiaobian/article/details/108765046

版权

独热编码虽常见，但会增加维度并可能导致稀疏性问题。目标编码、留一法编码、正态噪声编码和贝叶斯目标编码等方法提供了解决方案。这些监督编码器在考虑目标变量的情况下，可能在预测任务中更为有效。非线性PCA则为处理分类变量提供了新的思路。

摘要由CSDN通过智能技术生成

全文共2380字，预计学习时长6分钟

图源：unsplash

独热编码（又称虚拟变量）是一种将分类变量转换为若干二进制列的方法，其中1表示存在属于该类别的行。显然，从机器学习的角度来看，它并不适合对分类变量进行编码。

很明显，它增加了大量的维度，但通常来说维数越小越好。例如，如果设置一个列代表美国的州（例如加利福尼亚州、纽约州）的话，那么独热编码方案将会多出50个维度。

这样做不仅会为数据集增加大量维度，而且实际上并没有太多信息——大量0中零散分布着几个1。这造成了一个异常稀疏的景观，使得优化难以进行。对于神经网络来说尤其如此，其优化器在大量的空白维度中很容易进入错误的空间。

更糟糕的是，每个信息稀疏列之间都具有线性关系。这意味着一个变量可以很容易地使用其他变量进行预测，从而可能导致高维的并行性和多重共线性问题。

最佳数据集包含了信息具有独立价值的特征，而独热编码可创建一个完全不同的环境。当然，如果只有三个或甚至四个类，那么独热编码可能不是一个糟糕的选择。不过根据数据集的相对大小，其他的替代方法有可能值得一探。

目标编码可以有效表示分类列，而且仅占用一个特征空间。它也称为均值编码，该列中的每个值都被该类别的平均目标值代替。这样可以更直接地表示分类变量和目标变量之间的关系，并且这也是一种非常流行的技术（尤其是在Kaggle比赛中）。

这种编码方法有一些缺点。首先，它使模型更难以学习均值编码变量和另一个变量之间的关系。它只能根据它与目标的关系在在列中绘制相似性，这有利有弊。

这种编码方法对y变量非常敏感，会影响模型提取编码信息的能力。

最低0.47元/天解锁文章

「已注销」

关注

0
点赞
踩
12

收藏

觉得还不错? 一键收藏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。