pandas数据处理:处理标签类型数据

博客介绍了在数据处理中,如何使用pandas的get_dummies进行One-hot编码,以解决分类数据转换为数字可能引起的误解。解释了One-hot编码的原理和优势,以及标准化与归一化的应用场景和目的。
摘要由CSDN通过智能技术生成

Pands在进行数据处理是往往会遇到标签型数据,比如省份【北京,上海,广州】,有些模型需要使用数字型进行计算,很自然的我们想将其转化为【0,1,2】的数字来表示,但是,这样会造成一个问题,数字是有大小的,而且是有顺序的,但是我们的数据没有大小的意义,数字映射并不符合原来特征的意义。

为了解决这个问题,引入了独热编码也就是One-hot,也就是说,北上广,三种可能性,对应的三个互斥的编码,001,010,100,对于每一条数据来说,只会有一位是1,我们称此时的数据是稀疏的。

这样不仅解决了分类器不好处理属性数据的问题,而且也起到了扩充特征的作用。

为什么这样就解决了分类器不好处理的问题呢?

因为大部分分类其实是基于计算向量距离或是向量夹角,经过One-hot编码后,每一个特征的值都是空间的一个点,计算起来很方便,并且这个点的每一维都可以看成是连续的特征,可以使用连续特征的归一化方法,所以基于此特征在一定程度上得到了扩张。

那么为什么需要标准化/归一化呢?

这两个名词都是从normalization翻译来的,我认为将归一化认为标准化的一个特定范例比较合适,特征的归一化(normalization)是以去量纲为目的,不改变两个特征的二维分布,例如Z-score标准化(减均值/标准差),改变了样本原始的分布,此处脑补那个长椭圆和正圆形

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值