pandas数据处理：处理标签类型数据

最新推荐文章于 2024-05-20 06:44:33 发布

王负剑！王负剑！

最新推荐文章于 2024-05-20 06:44:33 发布

阅读量1.7k

点赞数 1

分类专栏： pandas 数据处理中瑞士军刀--Pandas 文章标签： One-hot pandas

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/infent/article/details/85162200

版权

博客介绍了在数据处理中，如何使用pandas的get_dummies进行One-hot编码，以解决分类数据转换为数字可能引起的误解。解释了One-hot编码的原理和优势，以及标准化与归一化的应用场景和目的。

摘要由CSDN通过智能技术生成

Pands在进行数据处理是往往会遇到标签型数据，比如省份【北京，上海，广州】，有些模型需要使用数字型进行计算，很自然的我们想将其转化为【0，1，2】的数字来表示，但是，这样会造成一个问题，数字是有大小的，而且是有顺序的，但是我们的数据没有大小的意义，数字映射并不符合原来特征的意义。

为了解决这个问题，引入了独热编码也就是One-hot，也就是说，北上广，三种可能性，对应的三个互斥的编码，001，010，100，对于每一条数据来说，只会有一位是1，我们称此时的数据是稀疏的。

这样不仅解决了分类器不好处理属性数据的问题，而且也起到了扩充特征的作用。

为什么这样就解决了分类器不好处理的问题呢？

因为大部分分类其实是基于计算向量距离或是向量夹角，经过One-hot编码后，每一个特征的值都是空间的一个点，计算起来很方便，并且这个点的每一维都可以看成是连续的特征，可以使用连续特征的归一化方法，所以基于此特征在一定程度上得到了扩张。

那么为什么需要标准化/归一化呢？

这两个名词都是从normalization翻译来的，我认为将归一化认为标准化的一个特定范例比较合适，特征的归一化（normalization）是以去量纲为目的，不改变两个特征的二维分布，例如Z-score标准化（减均值/标准差），改变了样本原始的分布，此处脑补那个长椭圆和正圆形

最低0.47元/天解锁文章

王负剑！王负剑！

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
1
评论
pandas数据处理：处理标签类型数据

Pands在进行数据处理是往往会遇到标签型数据，比如省份【北京，上海，广州】，有些模型需要使用数字型进行计算，很自然的我们想将其转化为【0，1，2】的数字来表示，但是，这样会造成一个问题，数字是有大小的，而且是有顺序的，但是我们的数据没有大小的意义，数字映射并不符合原来特征的意义。为了解决这个问题，引入了独热编码也就是One-hot，也就是说，北上广，三种可能性，对应的三个互斥的编码，001，...
复制链接

扫一扫

专栏目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。