特征工程 特征处理

前言:本文介绍了特征处理中的特征缩放、选择和降维,并用代码演示特征缩放中的标准化法和区间缩放法。

特征缩放

特征值缩放:

特征值的缩放‐‐标准化法:

标准化法按照标准正态分布将一列上的值进行标准化,即为求z值,axis = 0 代表是轴的方向,取列方向上的值。

特征值的缩放‐‐区间缩放法:

特征值的归一化:

归一化即将一行特征的坐标转换成一个不含量纲(单位)的“单位向量”。

L1 和 L2 范式也会用于回归问题的正则化,L1范式的分母是向量各元素绝对值的和,可用于特征选择,L2范式的分母是向量各元素平方和的开方,可用于防止过拟合。

定量特征的二值化:

缺失特征值的弥补计算:

创建多项式特征:

基于线性的特征建立的模型不能探寻两个因子间是否存在交互关系,因而平方展开多项式,获取更多的特征,如:x1*x2 交互项特征构建模型,可以分析出两个因子的交互作用对目标的影响。

特征选择

特征选择:

数据预处理变换后 ,可以得到很多的特征,选择对于学习任务有帮助的特征,降低模型运行的时间和提升效率,例如:在处理文本内容时,当文本内容较多,会发生“维度灾难”;过多的维度会造成模型的可解释性变差。

特征选择方法1‐‐方差选择法:

特征选择方法2‐‐皮尔森相关系数法:

特征选择方法3‐‐基于森林的特征选择:

特征选择方法4‐‐递归特征消除法:

特征降维

线性判别分析法(LDA):

上面两张图将二维数据投影到一维的一条直线上,右图投影后红色和蓝色两类样本更为集中,且中心距更大。当然在实际应用中,我们的数据是多个类别的,我们的原始数据一般也是超过二维的,投影后的也一般不是直线,而是一个低维的超平面。

主成分分析法(PCA):

主成成分分析将鸢尾花数据集中的四个特征转换为两个重要的特征,并可以将特征转换成二维的数据在平面上进行展示。

代码演示-量纲缩放

演示内容:量纲的特征缩放

两种方法:标准化缩放法和区间缩放法

每种方法有两个例子:简单二维矩阵和iris数据集


公众号回复:“量纲缩放” 获取代码

往期推荐

知识卡片 回归度量-MAE和RMSE

知识卡片 回归性能度量 Log Loss

知识卡片  一致性评价 r和k

机器学习入门案例:鸢尾花数据集分类 绘制PR曲线

知识卡片 特征工程

特征工程 文本处理

好文章,我 在看❤

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值