【特征工程概要】解释什么是特征,特征工程的步骤

      1. 特征工程简介

经常听人说,数据和特征决定了机器学习的上限,算法和模型只是不断逼近这个上限而已。由此可见,特征工程在机器学习中不可或缺的地位。

回过头看看网站Kaggle,KDD,国内外的比赛,每个竞赛的冠军其实都没有用到很高深的算法,大多数都是在特征工程这个环节做出了出色的工作,然后使用一些常见的算法就可以得到出色的性能。

特征工程是机器学习的关键因素。

      1. 特征工程的重要性及目的

特征工程的目的:是为了将字段转化为能更好的表示潜在问题的特征,进而提高机器学习的效能。

1.特征越好,灵活性越强:好的特征在任何模型下表现的性能都还不错,好特征的灵活性在于它允许你选择不复杂的模型,同时允许的速度也会更快,让你更容易理解和维护。

2.特征越好,构建的模型越简单:有好的特征,即使模型的参数不是最优,模型性能仍然可以表现的很好,所以你就不用花费太多时间去寻找最优参数,大大降低了模型的复杂度,让模型趋于简单。

3.特征越好,模型的性能就越好。我们本身寻找特征的目的就是为了提高模型的性能。

如何评估特征工程

建立机器学习模型的Baseline Model(最基础机器模型)

应用一种或多种的特征工程技术在原始数据中

重新建立机器学习模型和Baseline Model比较

若效能的增量大于某个临界值的话,代表它是有益的

进行主要的特征工程处理之前,我们必须要进行

1.特征理解:了解数据集里有什么字段

2.特征改进:对字段进行数据预处理

      1. 特征理解

1.数据是结构(表)还是非结构数据(文本,语音,视频,音频)

2.字段的类型:数值型,类别型,顺序型,二元型

3.描述性数据分析(Exploratory Data Analysis)(为了让你了解数据的整体情况)

(1)描述性统计(Descriptive Statisties):不同值个数,空值个数,类别值的分布,最大值,最小值,平均值,标准偏差,离群值等数据质量报告

(2)数据可视化(Data Visualization):各种图表的搭配(圆饼图,长条图,直方图,散点图等),可与目标字段搭配呈现。

案例:小额信用贷款数据集

小额信贷数据保护1551笔客户数据

每笔客户数据含一个目标字段(Target Attribute)

小额信贷数据包含1551客户数据

每笔客户数据含一个目标字段(Target Attribute)和10个输入字段(Input Attribute)

8个为类别型字段,2个为数值型字段

本项目将顾客分为两类

1.会来小额信贷(会回应)的客户

167笔数据

2.不会来小额信贷(不会回应)的客户

有1384笔数据

字段01:age(数值字段):年龄

字段02:sex(类别字段):性别

字段03:region(类别字段):居住区域

字段05:income(数值字段):月收入

字段06:children(类别字段):家中小孩数

字段07:car(类别字段)是否有车

字段08:save——act(类别字段):是否有活储账户

字段09:current_act(类别字段):是否有支存账户

字段10:mortgage(类别字段):是否为房贷户

 

描述性统计:数据质量报告

总表

 

性别不同值可能有问题。

数值型字段的表

最大值最小值与最后二者对比,看是否有离群值

 

表三:分类数据的特点

 

性别与目标字段似乎关系不大

 

不同的居住区域贷款比例有些许不同(比性别重要)

 

已婚的贷款需求似乎更大

 

小孩个数与是否贷款的关系,没小孩没有责任感,(重要)

 

是否有车看起来与是否贷款关系不大

 

是否有活期账户与是否贷款的关系

 

年龄会越来越低。

 

收入也是有下降趋势。

 

特征改进:

理解特征的的前提下进行改进

数据清洗:错误值、空值、离群值的处理,之前已有说明

数据编码,数据标准化(Data Standardization)及类型的转换

Z-score,Min-Max,类别及顺序型字段的编码,之前已经说明了

数据的一般化,数据的归一化(让向量长度为1,用于文本分析,后面第三部分会说明)

非数据结构结构化(第三部分会具体说明)

数据(非文本)的归一化

 

 

 

L2代表其中数据的欧式距离等于1,也就是二者的平方开根号为1

L1

就是二者之和为1,

      1. 特征工程的涵盖范围

特征建构:建构新的特征,探索特征间的关联

运用外部数据,数据探索,专家经验,数据分析,的特征建构方法

特征选择:选择一部分有用的特征,对坏特征say no

统计方式,高度相关特征,模型方式(随机森林,决策树),递归式的特征选择(逐步回归之类的)

特征转化:(有前提例如PCA)运用数学方法(简单的加减乘除主成分因子分析等),合并旧字段(可以是坏特征)产生新特征,提取隐藏在数据中的潜在结构

线性(PCA,矩阵分解NMF,SVD,TSVD,LDA)

非线性(Kernel PCA,tSNE,神经网络)

两种线性转化

特征学习:(无前提)运用深度学习,自动学习新特征。

(关联规则,神经网络,深度学习)为基础的特征学习,词嵌入为基础的文本特征学习

以AI促进AI

  • 2
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

晴天qt01

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值