数据挖掘之特征工程入门

数据挖掘之特征工程入门

定义

定义:特征工程指的是把原始数据转变为模型的训练数据的过程

目的

目的就是获取更好的训练数据特征,使模型性能提升(甚至简单模型也能获得较大提升)

大致包括

特征构建(较麻烦,往往需要经验等)、特征提取、特征选择(从原始特征中找出最有效的特征)

特征提取、特征选择异同:

  相同点:减少特征的维度、数据冗余

  相异点:特征提取强调通过特征转换的方式得到一组具有明显物理或统计意义的特征,特征提取有时能发现更有意义的特征属性。

一、特征构建简介

特征构建是指从原始数据中人工的找出一些具有物理意义的特征。

1、观察原始数据,思考问题的潜在形式和数据结构,对数据敏感性和机器学习实战经验能帮助特征构建。

2、属性分割和结合是特征构建时常使用的方法

如:结构性的表格数据,可以尝试组合二个、三个不同的属性构造新的特征,如果存在时间相关属性,可以划出不同的时间窗口,得到同一属性在不同时间下的特征值,也可以把一个属性分解或切分。
特征选择是从特征集合中挑选一组具有明显物理或统计意义的特征子集,特征选择的过程经常能表示出每个特征的重要性对于模型构建的重要性。

二、 特征提取

1、PCA
PCA的思想是通过坐标轴转换,寻找数据分布的最优子空间,从而达到降维、去相关的目的。数学上先用原始数据协方差矩阵的前N个最大特征值对应的特征向量构成映射矩阵,然后原始矩阵左乘映射矩阵,从而对原始数据降维。

2、LDA
LDA的原理是将带上标签的数据(点),通过投影的方法,投影到维度更低的空间,使得投影后的点,会形成按类别区分,相同类别的点,将会在投影后更接近,不同类别的点距离越远。
在这里插入图片描述

3、ICA(独立成分分析)
PCA特征转换降维,提取的是不相关的部分,ICA独立成分分析,获得的是相互独立的属性。ICA算法本质寻找一个线性变换z = Wx,使得z的各个特征分量之间的独立性最大。ICA相比与PCA更能刻画变量的随机统计特性,且能抑制噪声。
ICA算法听着有点绕,ICA认为观测到数据矩阵X是可以由未知的独立元举证S与未知的矩阵A相乘得到。ICA希望通过矩阵X求得一个分离矩阵W,使得W作用在X上所获得的矩阵Y能够逼近独立源矩阵S,最后通过独立元矩阵S表示矩阵X,所以说ICA独立成分分析提取出的特征中的独立部分。
在这里插入图片描述

三、特征选择
特征选择是从特征集合中挑选一组具有明显物理或统计意义的特征子集,特征选择的过程经常能表示出每个特征的重要性对于模型构建的重要性。
特征选择要剔除不相关或者冗余的特征,减少有效特征的个数,减少模型训练的时间,提高模型的精确度。特征提取通过特征转换实现降维,特征选择则是依靠统计学方法或者于机器学习模型本身的特征选择(排序)功能实现降维。

注意:特征选择是个重复迭代的过程,有时可能自己认为特征选择做的很好,但实际中模型训练并不太好,所以每次特征选择都要使用模型去验证,最终目的是为了获得能训练出好的模型的数据,提升模型的性能。

一、 运用统计学的方法,衡量单个特征与响应变量(Lable)之间的关系

  1. 皮尔森相关系数

  2. 最大信息系数(最大互信息(熵))

线性、非线性均可(但当变量之间的关系接近线性相关的时候,Pearson相关系数仍然是不可替代的)

二、 基于机器学习模型的特征选择

在这里插入图片描述
随机森林模型

随机森林由多棵决策树构成,决策树中的每个节点,都是关于某个特征的条件,利用不纯度可以确定划分数据集的最优特征,对于分类问题,通常采用基尼不纯度或者信息增益,对于回归问题,通常采用方差或者最小二乘拟合。当训练决策树的时候,可以计算出每个特征减少了多少树的不纯度。对于一个决策树森林来说,可以算出每个特征平均减少了多少不纯度,并把它平均减少的不纯度作为特征选择的值。

直接度量每个特征对模型精确率的影响

主要思路是打乱每个特征的特征值顺序,并且度量顺序变动对模型的精确率的影响。很明显,对于不重要的变量来说,打乱顺序对模型的精确率影响不会太大,但是对于重要的变量来说,打乱顺序就会降低模型的精确率。

基尼不纯度的大概意思是 一个随机事件变成它的对立事件的概率,不纯度越小,纯度越高,集合的有序程度越高,分类的效果越好,基尼不纯度也可以作为 衡量系统混乱程度的标准。
在这里插入图片描述

二手车预测特征工程

删除异常值
在这里插入图片描述
特征构造
在这里插入图片描述
特征筛选

  • 1.过滤式
    在这里插入图片描述
  • 2.包裹式
    在这里插入图片描述
    未完待续…
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值