matlab 写正态分布矩阵的离散化,数据处理 | pandas入门专题——离散化与one-hot

蒋叶婷

于 2021-04-07 18:35:22 发布

阅读量952

点赞数

文章标签： matlab 写正态分布矩阵的离散化

本文介绍如何使用Pandas进行数据离散化，包括cut和qcut方法，以及one-hot编码的原理与应用，强调离散化和one-hot在数据预处理中的重要性。

摘要由CSDN通过智能技术生成

今天是pandas数据处理专题第7篇文章，可以点击上方专辑查看往期文章。

在上一篇文章当中我们介绍了对dataframe进行排序以及计算排名的一些方法，在今天的文章当中我们来了解一下dataframe两个非常重要的功能——离散化和one-hot。

离散化

离散对应的反面是连续，离散化也就是将连续性的数值映射到一个离散的值。举个很简单的例子，比如说现在有一个特征是用户的收入，我们都知道贫富差距是非常巨大的，一个马云的收入顶的上成千上万人收入之和。而最穷的人收入非常少，甚至每天不到一美元。

我们来设想一下，假设我们将收入这个值作为特征放入模型，会发生什么。如果是线性模型，很显然模型会被这个特征值给带跑偏。我们来看下线性回归的公式：，这里的W表示的样本矩阵X的系数向量。假设某一维是收入，那么它对应的系数显然必须非常非常小，因为样本当中有马云这种顶级大佬的收入存在，也就是说为了拟合这样的极端数据，模型被带跑偏了。

这种情况非常多，因为现实生活当中很多数据的分布是非常不均匀的。往往不是正态分布而是二八分布，甚至更加两极分化。那针对这种情况该怎么处理呢？

比较简单也比较常用的一种方法就是将它离散化，将原本连续的值映射成离散的变量。比如说收入，我们不再直接用收入这个值来作为特征，而是将它分成几个桶，比如分为低收入群体，中等收入群体，高收入群体。这样对模型训练来说，就不会被带偏了，但是缺点是损失了部分信息。比如说马云和东哥都是高收入群体，但是两人的挣钱能力其实还是相差蛮远的。如果采用这种方式就体现不出来了，所以离散化的设计也不是拍脑门的，也要根据实际情况具体分析。

那么假设我们

最低0.47元/天解锁文章

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
matlab 写正态分布矩阵的离散化,数据处理 | pandas入门专题——离散化与one-hot

今天是pandas数据处理专题第7篇文章，可以点击上方专辑查看往期文章。在上一篇文章当中我们介绍了对dataframe进行排序以及计算排名的一些方法，在今天的文章当中我们来了解一下dataframe两个非常重要的功能——离散化和one-hot。离散化离散对应的反面是连续，离散化也就是将连续性的数值映射到一个离散的值。举个很简单的例子，比如说现在有一个特征是用户的收入，我们都知道贫富差距是非常巨大的...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。