机器学习入门（2、特征预处理、降维）

最新推荐文章于 2022-07-12 11:43:33 发布

奈々生様

最新推荐文章于 2022-07-12 11:43:33 发布

阅读量1.3k

点赞数

分类专栏：机器学习入门文章标签： python 机器学习 sklearn

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_27248929/article/details/123896879

版权

机器学习入门专栏收录该内容

3 篇文章 0 订阅

订阅专栏

③特征预处理

④特征降维

4.1 特征选择

4.2 主成分分析

③特征预处理

原理是通过转换函数，将特征数据转换成更适合算法模型的特征数据的过程。

数据抽取步骤，已将原始数据处理为数值型数据，还需将不同规格的数据转换为同一规格，此处特征预处理的过程也称为数值型数据的无量纲化，主要通过 归一化、标准化 两种方式来实现。

3.1 归一化

通过对原始数据进行变换，把数据映射到默认为 [0,1] 之间。

在sklearn.preprocessing.MinMaxScaler 中调用，实现如下：

由于它对最大值和最小值进行处理，并加入运算，因而结果容易受到异常值（最大/最小值）的影响，鲁棒性（稳定性）较差，只适合精确的小数据场景。

3.2 标准化

将原始数据进行变换，把数据变换到均值为 0 ，标准差为 1 的范围内。

在sklearn中的基本实现，import sklearn.preprocessing.StandardScaler。

在已有样本足够多的情况下，适合现代嘈杂大数据场景。

④特征降维

降维是指在某些限定条件下，降低随机变量（特征）个数，得到一组“不相关”主变量的过程。

ndarry，n是嵌套的层数，【0维：标量、1维：向量、2维：矩阵、3…n维：多个2维嵌套】。

特征降维的方式有特征选择、主成分分析两类。

4.1 特征选择

由于数据中包含冗余/无关变量（或称特征、属性、指标等），旨在原有特征中找出主要特征。

1、过滤式（filter）

1-1 方差选择法：低方差特征过滤（删除所有低方差特征）。

1-2 相关系数：特征与特征间的相关程度。

皮尔逊相关系数：反映变量间相关关系密切程度的统计指标（计算公式如下）。

相关系数的均值介于 [-1,1] ，约接近 1 ，表示特征间呈正相关；越接近 -1 ，表示特征间呈负相关；越接近 0 ，越不相关。

若出现多个特征与特征间相关性很高，处理方式有：1）可选其一为代表；2）按权重，加权求和，形成新特征；3）可通过主成分分析，来自动分析处理。

1-3 embeded（嵌入式）

类似决策树（信息熵/信息增益）、正则化（L1/L2）、深度学习（卷积）等。

4.2 主成分分析

将高维数据转化成低维数据的过程，此过程可能会舍弃原有数据、创造新的变量。数据维数压缩的过程中，尽可能减少原数据的维数，损失少量信息。

以上是二维降维的示意图。

sklearn中，import sklearn.decomposition.PCA 即可调用，实现代码如下：

以上为特征预处理和特征降维的处理方式介绍。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
机器学习入门（2、特征预处理、降维）

③特征预处理原理是通过转换函数，将特征数据转换成更适合算法模型的特征数据的过程。
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。