机器学习（学习笔记8）——特征转化（未完...）

最新推荐文章于 2023-02-16 20:54:04 发布

Wu_Jun_Peng

最新推荐文章于 2023-02-16 20:54:04 发布

阅读量396

点赞数 1

分类专栏：学习笔记

学习笔记专栏收录该内容

15 篇文章 1 订阅

订阅专栏

机器学习（学习笔记8）——特征转化

特征转化
标准化

特征转化

为什么要转化数据呢，就是要让它成为有效的特征，因为原始数据是很多脏数据无用数据的。常用的方法是标准化，归一化，特征的离散化等等。比如我输入的数据是句子，我得把它切分为一个个单词进行分析，这就是一种转化。

连续型数据处理之二值化：Binarizer

假设淘宝现在有个需求，我得根据年龄来进行物品推荐，把50以上的人分为老年，50以下分为非老年人，那么我们根据二值化可以很简单的把50以上的定为1，50以下的定为0。这样就方便我们后续的推荐了。Binarizer就是根据阈值进行二值化,大于阈值的为1.0,小于等于阈值的为0.0

连续型数据处理之给定边界离散化：Bucketizer

现在淘宝的需求变了，他们觉得把人分为50以上和50以下太不精准了，应该分为20岁以下，20-30岁，30-40岁，36-50岁，50以上，那么就得用到数值离散化的处理方法了。离散化就是把特征进行适当的离散处理，比如上面所说的年龄是个连续的特征，但是我把它分为不同的年龄阶段就是把它离散化了，这样更利于我们分析用户行为进行精准推荐。Bucketizer能方便的将一堆数据分成不同的区间。

连续型数据处理之给定分位数离散化：QuantileDiscretizer

有时候我们不想给定分类标准，可以让spark自动给我们分箱。

标准化

对于同一个特征，不同的样本中的取值可能会相差非常大，一些异常小或异常大的数据会误导模型的正确训练；另外，如果数据的分布很分散也会影响训练结果。以上两种方式都体现在方差会非常大。此时，我们可以将特征中的值进行标准差标准化，即转换为均值为0，方差为1的正态分布。如果特征非常稀疏，并且有大量的0（现实应用中很多特征都具有这个特点），Z-score 标准化的过程几乎就是一个除0的过程，结果不可预料。所以在训练模型之前，一定要对特征的数据分布进行探索，并考虑是否有必要将数据进行标准化。基于特征值的均值（mean）和标准差（standard deviation）进行数据的标准化。它的计算公式为：标准化数据=(原数据-均值)/标准差。标准化后的变量值围绕0上下波动，大于0说明高于平均水平，小于0说明低于平均水平。

StandardScaler

归一化

为什么数据需要归一化？以房价预测为案例，房价(y)通常与离市中心距离(x1)、面积(x2)、楼层(x3)有关，设y=ax1+bx2+cx3，那么abc就是我们需要重点解决的参数。但是有个问题，面积一般数值是比较大的，100平甚至更多，而距离一般都是几公里而已，b参数只要一点变化都能对房价产生巨大影响，而a的变化对房价的影响相对就小很多了。显然这会影响最终的准确性，毕竟距离可是个非常大的影响因素啊。所以, 需要使用特征的归一化, 取值跨度大的特征数据, 我们浓缩一下, 跨度小的括展一下, 使得他们的跨度尽量统一。
归一化就是将所有特征值都等比地缩小到0-1或者-1到1之间的区间内。其目的是为了使特征都在相同的规模中。

绝对值最大标准化：MaxAbsScaler

归一化之最小最大值标准化MinMaxScaler

正则化Normalizer

为什么要有正则化？就是为了防止过拟合。来看一下正则化是怎么计算的：
在这里插入图片描述

N-gram

N-Gram认为语言中每个单词只与其前面长度 N-1 的上下文有关。主要分为bigram和trigram，bigram假设下一个词的出现依赖它前面的一个词，trigram假设下一个词的出现依赖它前面的两个词。在SparkML中用NGram类实现，setN(2)为bigram，setN(3)为trigram。

多项式转化PolynomialExpansion

有时候要对特征值进行一些多项式的转化，比如平方啊，三次方啊等等，那就用到了PolynomialExpansion。

Wu_Jun_Peng

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
机器学习（学习笔记8）——特征转化（未完...）

机器学习（学习笔记8）——特征转化特征转化连续型数据处理之二值化：Binarizer连续型数据处理之给定边界离散化：Bucketizer连续型数据处理之给定分位数离散化：QuantileDiscretizer标准化StandardScaler归一化绝对值最大标准化：MaxAbsScaler归一化之最小最大值标准化MinMaxScaler正则化NormalizerN-gram多项式转化Polynom...
复制链接

扫一扫