coursera用python玩转数据_4 数据预处理之数据变换 - Python数据统计与挖掘Python Data Statistics and Mining | Coursera...

最新推荐文章于 2024-05-03 18:41:34 发布

夏梦之弦

最新推荐文章于 2024-05-03 18:41:34 发布

阅读量106

点赞数

文章标签： coursera用python玩转数据

本文链接：https://blog.csdn.net/weixin_35973657/article/details/113380818

版权

数据整理好以后处理过程当中或者最终结果的查看时常常需要浏览数据有的时候会发现程序的结果不对这个时候可能会跟程序死磕痛不欲生夜不能寐所以为了避免这种悲催事情的发生赶紧来看一下数据预处理的常见任务数据变换需要做的工作吧数据变换是数据预处理的重要步骤简单来说就是把数据变换成合适的形式常见的方式有规范化连续属性离散化特征二值化等还可以做一些属性构造等先来看数据规范化因为数据一般有多个属性构成简单来说多个属性就是多个数据列不同属性之间可能存在量纲不同例如身高是厘米体重是公斤范围也可能不一样这样的不同会让数据不可比较所以需要先将各属性指标进行无量纲化操作消除量纲还有数据取值范围影响后再将它们运用在各类算法模型和实际应用中规范化的常用方法有最小-最大规范化也称为离差标准化 z-score规范化也称为零-均值规范化或我们常说的标准化还有小数定标规范化不同类型的模型和应用常需要选择不同的规范化方法例如像聚类因为需要用距离来度量相似性所以用z-score规范化会表现更好一些下面我们以波士顿房价数据集为例来说明数据规范化的做法波士顿房价数据集与鸢尾花iris数据集一样也是机器学习的经典数据集主要用于回归分析它统计的是20世纪70年代中期波士顿郊区房价的中位数共有 506 条记录包括房屋以及房屋周围的详细信息如城镇犯罪率CRIM 一氧化氮浓度NOX 住宅平均房间数RM等13 个特征属性以及房价中位数这1个目标属性MEDV 我们来看一下具体的载入方式载入方式与载入iris数据集一样然后使用datasets的load_boston()这个函数把结果赋给变量boston 通过它的data属性可以看到具体的数据记录共有506行13列 13列的特征属性可以通过对象的feature_names属性获得通过对象的target属性可以看到目标属性MEDV即房价中位数具体的值具体这些属性的信息可以直接输出boston看到有详细的属性介绍为了便于观察我们选择NOX、RM和AGE这3个特征做规范化处理我们选择NOX、RM和AGE这3个特征做规范化处理分别表示一氧化氮浓度平均每居民房数和在1940年之前建成的所有者占用单位的比例我们来构建一个这3个特征的DataFrame 它们位于第4、5和6这3列先导入pandas模块简单一点我们把这个DataFrame命名为df 对这个数组做切片操作并给它添加columns的值看一下这个df 正确选择了我们需要的3列这样这个DataFrame就构建好了下面我们基于它来做各种规范化处理先来看规范化中的最小-最大规范化它的计算公式很简单该值减去该值所在属性的最小值除以所在属性的最大值和最小值的差因为DataFrame对象支持矢量计算所以手工写出代码是不是也很简单我们来写一下是不是这样写就行了 (df-df.min())/(df.max()-df.min())，min()和max()方法分别用来求最小值和最大值这就是处理结果的前6条记录可以很容易看出这样处理后数据值都落在了[0,1]区间内这种规范化形式比较适合不涉及距离度量的场景它的问题是如果将来的数字超过min或max范围会越界需要重新定义另外如果某个数很大则规范化后的值相近且均接近0 来试一下这就是规范化的结果除手工写代码处理外也常用sklearn中preprocessing模块来做规范化 preprocessing模块中有很多功能强大的函数可以完成各种预处理任务例如最小-最大规范化我们可以这样来处理先导入使用preprocessing中的minmax_scale(函数) 可以看到结果是正确的接着看z-score规范化它的计算公式是该值与该值所在属性的均值之差除以该属性的标准差这种标准化方式使用最多处理后数据的均值为0 标准差为1 这个公式手工写代码是不是也很简单 (df-df.mean())/df.std() 来运行一下看看来写一下这个公式这就是标准化的结果同样我们可以利用sklearn预处理模块中函数来处理比较方便的是直接使用scale()函数这样就可以了再来看小数定标规范化这是原始的数据常见的是让数据落在[-1,1]区间内这是这样的形式这种方式是通过移动小数点位置来实现的移动的位数取决于属性绝对值的最大值例如假设AGE属性的绝对值最大值为90 它的位数为2 该属性所有值只要除以10的2次方100就可以让数据落在[-1,1]区间内公式就是这样怎样写出这个公式呢主要是表示这个移动位数j 想一想我们是不是可以利用numpy模块的log10()这样的函数求10的多少次方是属性绝对值的最大值当然这样求出来是一个小时只要使用向上取整函数ceil()就可以了例如原来是1.95，ceil()函数处理后就变成2 完整的公式就是这样大家再好好理解一下再看处理后的数据这列数据肯定是除以了10 这列数据就是除以了100 接下来再来看第二种常见的数据变换方式连续属性离散化常见的方法是用分箱法binning和聚类我们来看一下分箱法分箱法除了可以平滑噪声外也可以用来做连续属性的离散化有等宽法和等频法之分从名字应该可以听出来等宽法是把数据区间按设定的箱子数等分而等频法则要求放进每个箱子的记录数相同落到同一箱子中的数据不管哪一种方法数据的标签都是一样的我们常使用pandas的cut()和qcut()函数进行等宽和等频的连续属性离散化我们来执行一下假设我们要处理的是波士顿房价数据集的AGE属性两种方法我们都把数据分成5个箱子每个箱子的标签都是0到4 先来看等宽法 5是箱子的个数就是bins参数的值标签假设是0到4 这就是等宽法的结果可以看到这种方法同一区域标签个数可能不一样多从显示出来的数据来看似乎0这一类出现的很少另外还可以通过设定bins参数值实现更细粒度的范围确定例如我们刚才设定的bins值是5 也可以这样设定bins = [1, 2, 3, 4, 5] 假设原始的数据范围是1到5 不包含1，包含5 它表示将数据范围划分为4个分别是(1,2]，(2,3]，(3,4]，(4,5] 左开右闭的区间然后在pd.cut()函数中将这个变量bins赋值给参数bins就可以了当然这种设定需要一定的数据相关领域的经验再来看等频法只要把cut改成qcut就可以了等频法的处理结果看上去似乎每一类的个数都是均衡的为了更好地说明问题我们可以只看前20条记录大家观察一下我们不仔细去数了但应该可以发现每一个类别它包含的记录条数都是一样的都包含4条记录顺便再基于20条记录实现一下等宽法可以看到有3个0，3个1 与等频法不一样这两种方法都比较常用也比较简单它们首先都需要有一定经验确定箱子的个数另外也有一些缺点例如等宽法容易受异常值的影响分箱后可能有的区域值很多有的很少等频法则容易将相同的值分到不同的箱中这些缺点对模型来说有时会不是特别友好数据变换的另一种常见方式是特征二值化我们来简单看一下它的含义特征二值化的核心是设定一个阈值threshold 大于阈值的赋值为1 小于等于阈值的赋值为0 很适合用于目标属性将多分类问题转换成二分类问题例如假设有一个电影数据集数据集中包含多部电影的多个特征属性如电影题材上映月份国产片还是外语片等目标属性为多个用户对电影评分的均值均值范围假设为[0,10] 如果我们要判断某一部新电影是否会被推荐我们就可以基于经验将用户评分转换成两个分类——推荐和不推荐例如6分以上推荐标签为1 如这样的记录 6分以下不推荐标签为0 标签确定后就可以使用具体的分类算法当然也可以用于聚类等算法要看实际的数据和任务怎么实现这样的特征二值化呢我们同样可以利用sklearn的preprocessing模块方法有很多例如可以使用Binarizer()或LabelEncoder()函数例如我们来看Binarizer()函数简单起见我们用波士顿房价的目标属性来实现一下虽然因为任务不同这个目标属性一般不做二值化处理我们只要先准备好数据然后设定Binarizer()函数的阈值 threshold参数值就可以进行学习了用fit_transform()方法运行一下这就是二值化的结果这里要说明的是 boston.target目标属性中是房价的中位数我们刚才设定的阈值是20 也就是假设大于20的为一类小于等于20的为另一类这个类可能是高价和非高价房另外要说明的是刚才我们在程序中写了reshape()方法为什么呢因为原始数据boston.target是1行506列因为我们要对应每一条记录有一个类别所以需要把它转换成506行我们只要用reshape(-1,1)就可以了结果就是我们需要的维度如果要分成不止两类例如三类该如何处理呢下一章我们会有完整的案例来谈这个问题也会介绍一些其他常用的函数和方法这就是数据变换的三种常见方式规范化连续属性离散化特征二值化我们列举了一些常用的方法这些都是后续大家要解决实际问题时可能会需要完成的工作方法可能会有很多也可能有变化最重要的是我们需要有数据变换的意识