-
-
- 特征工程简介
-
经常听人说,数据和特征决定了机器学习的上限,算法和模型只是不断逼近这个上限而已。由此可见,特征工程在机器学习中不可或缺的地位。
回过头看看网站Kaggle,KDD,国内外的比赛,每个竞赛的冠军其实都没有用到很高深的算法,大多数都是在特征工程这个环节做出了出色的工作,然后使用一些常见的算法就可以得到出色的性能。
特征工程是机器学习的关键因素。
-
-
- 特征工程的重要性及目的
-
特征工程的目的:是为了将字段转化为能更好的表示潜在问题的特征,进而提高机器学习的效能。
1.特征越好,灵活性越强:好的特征在任何模型下表现的性能都还不错,好特征的灵活性在于它允许你选择不复杂的模型,同时允许的速度也会更快,让你更容易理解和维护。
2.特征越好,构建的模型越简单:有好的特征,即使模型的参数不是最优,模型性能仍然可以表现的很好,所以你就不用花费太多时间去寻找最优参数,大大降低了模型的复杂度,让模型趋于简单。
3.特征越好,模型的性能就越好。我们本身寻找特征的目的就是为了提高模型的性能。
如何评估特征工程
建立机器学习模型的Baseline Model(最基础机器模型)
应用一种或多种的特征工程技术在原始数据中
重新建立机器学习模型和Baseline Model比较
若效能的增量大于某个临界值的话,代表它是有益的
进行主要的特征工程处理之前,我们必须要进行
1.特征理解:了解数据集里有什么字段
2.特征改进:对字段进行数据预处理
-
-
- 特征理解
-
1.数据是结构(表)还是非结构数据(文本,语音,视频,音频)
2.字段的类型:数值型,类别型,顺序型,二元型
3.描述性数据分析(Exploratory Data Analysis)(为了让你了解数据的整体情况)
(1)描述性统计(Descriptive Statisties):不同值个数,空值个数,类别值的分布,最大值,最小值,平均值,标准偏差,离群值等数据质量报告
(2)数据可视化(Data Visualization):各种图表的搭配(圆饼图,长条图,直方图,散点图等),可与目标字段搭配呈现。
案例:小额信用贷款数据集
小额信贷数据保护1551笔客户数据
每笔客户数据含一个目标字段(Target Attribute)
小额信贷数据包含1551客户数据
每笔客户数据含一个目标字段(Target Attribute)和10个输入字段(Input Attribute)
8个为类别型字段,2个为数值型字段
本项目将顾客分为两类
1.会来小额信贷(会回应)的客户
167笔数据
2.不会来小额信贷(不会回应)的客户
有1384笔数据
字段01:age(数值字段):年龄
字段02:sex(类别字段):性别
字段03:region(类别字段):居住区域
字段05:income(数值字段):月收入
字段06:children(类别字段):家中小孩数
字段07:car(类别字段)是否有车
字段08:save——act(类别字段):是否有活储账户
字段09:current_act(类别字段):是否有支存账户
字段10:mortgage(类别字段):是否为房贷户
描述性统计:数据质量报告
总表
性别不同值可能有问题。
数值型字段的表
最大值最小值与最后二者对比,看是否有离群值
表三:分类数据的特点
性别与目标字段似乎关系不大
不同的居住区域贷款比例有些许不同(比性别重要)
已婚的贷款需求似乎更大
小孩个数与是否贷款的关系,没小孩没有责任感,(重要)
是否有车看起来与是否贷款关系不大
是否有活期账户与是否贷款的关系
年龄会越来越低。
收入也是有下降趋势。
特征改进:
理解特征的的前提下进行改进
数据清洗:错误值、空值、离群值的处理,之前已有说明
数据编码,数据标准化(Data Standardization)及类型的转换
Z-score,Min-Max,类别及顺序型字段的编码,之前已经说明了
数据的一般化,数据的归一化(让向量长度为1,用于文本分析,后面第三部分会说明)
非数据结构结构化(第三部分会具体说明)
数据(非文本)的归一化
L2代表其中数据的欧式距离等于1,也就是二者的平方开根号为1
L1
就是二者之和为1,
-
-
- 特征工程的涵盖范围
-
特征建构:建构新的特征,探索特征间的关联
运用外部数据,数据探索,专家经验,数据分析,的特征建构方法
特征选择:选择一部分有用的特征,对坏特征say no
统计方式,高度相关特征,模型方式(随机森林,决策树),递归式的特征选择(逐步回归之类的)
特征转化:(有前提例如PCA)运用数学方法(简单的加减乘除主成分因子分析等),合并旧字段(可以是坏特征)产生新特征,提取隐藏在数据中的潜在结构
线性(PCA,矩阵分解NMF,SVD,TSVD,LDA)
非线性(Kernel PCA,tSNE,神经网络)
两种线性转化
特征学习:(无前提)运用深度学习,自动学习新特征。
(关联规则,神经网络,深度学习)为基础的特征学习,词嵌入为基础的文本特征学习
以AI促进AI