【特征工程概要】解释什么是特征，特征工程的步骤

晴天qt01

于 2022-07-12 22:02:15 发布

阅读量852

点赞数 2

分类专栏：数据挖掘文章标签：大数据数据分析数据挖掘算法机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq1021091799qq/article/details/125753001

版权

数据挖掘专栏收录该内容

53 篇文章 16 订阅

订阅专栏

1. 1. 特征工程简介

经常听人说，数据和特征决定了机器学习的上限，算法和模型只是不断逼近这个上限而已。由此可见，特征工程在机器学习中不可或缺的地位。

回过头看看网站Kaggle，KDD，国内外的比赛，每个竞赛的冠军其实都没有用到很高深的算法，大多数都是在特征工程这个环节做出了出色的工作，然后使用一些常见的算法就可以得到出色的性能。

特征工程是机器学习的关键因素。

1. 1. 特征工程的重要性及目的

特征工程的目的：是为了将字段转化为能更好的表示潜在问题的特征，进而提高机器学习的效能。

1.特征越好，灵活性越强：好的特征在任何模型下表现的性能都还不错，好特征的灵活性在于它允许你选择不复杂的模型，同时允许的速度也会更快，让你更容易理解和维护。

2.特征越好，构建的模型越简单：有好的特征，即使模型的参数不是最优，模型性能仍然可以表现的很好，所以你就不用花费太多时间去寻找最优参数，大大降低了模型的复杂度，让模型趋于简单。

3.特征越好，模型的性能就越好。我们本身寻找特征的目的就是为了提高模型的性能。

如何评估特征工程

建立机器学习模型的Baseline Model（最基础机器模型）

应用一种或多种的特征工程技术在原始数据中

重新建立机器学习模型和Baseline Model比较

若效能的增量大于某个临界值的话，代表它是有益的

进行主要的特征工程处理之前，我们必须要进行

1.特征理解：了解数据集里有什么字段

2.特征改进：对字段进行数据预处理

1. 1. 特征理解

1.数据是结构（表）还是非结构数据（文本，语音，视频，音频）

2.字段的类型：数值型，类别型，顺序型，二元型

3.描述性数据分析（Exploratory Data Analysis）（为了让你了解数据的整体情况）

（1）描述性统计（Descriptive Statisties）：不同值个数，空值个数，类别值的分布，最大值，最小值，平均值，标准偏差，离群值等数据质量报告

（2）数据可视化（Data Visualization）：各种图表的搭配（圆饼图，长条图，直方图，散点图等），可与目标字段搭配呈现。

案例：小额信用贷款数据集

小额信贷数据保护1551笔客户数据

每笔客户数据含一个目标字段（Target Attribute）

小额信贷数据包含1551客户数据

每笔客户数据含一个目标字段（Target Attribute）和10个输入字段（Input Attribute）

8个为类别型字段，2个为数值型字段

本项目将顾客分为两类

1.会来小额信贷（会回应）的客户

167笔数据

2.不会来小额信贷（不会回应）的客户

有1384笔数据

字段01：age（数值字段）：年龄

字段02：sex（类别字段）：性别

字段03：region（类别字段）：居住区域

字段05：income（数值字段）：月收入

字段06：children（类别字段）：家中小孩数

字段07：car（类别字段）是否有车

字段08：save——act（类别字段）：是否有活储账户

字段09：current_act(类别字段)：是否有支存账户

字段10：mortgage（类别字段）：是否为房贷户

描述性统计：数据质量报告

总表

性别不同值可能有问题。

数值型字段的表

最大值最小值与最后二者对比，看是否有离群值

表三：分类数据的特点

性别与目标字段似乎关系不大

不同的居住区域贷款比例有些许不同（比性别重要）

已婚的贷款需求似乎更大

小孩个数与是否贷款的关系，没小孩没有责任感，（重要）

是否有车看起来与是否贷款关系不大

是否有活期账户与是否贷款的关系

年龄会越来越低。

收入也是有下降趋势。

特征改进：

理解特征的的前提下进行改进

数据清洗：错误值、空值、离群值的处理，之前已有说明

数据编码，数据标准化（Data Standardization）及类型的转换

Z-score，Min-Max，类别及顺序型字段的编码，之前已经说明了

数据的一般化，数据的归一化（让向量长度为1，用于文本分析，后面第三部分会说明）

非数据结构结构化（第三部分会具体说明）

数据（非文本）的归一化

L2代表其中数据的欧式距离等于1，也就是二者的平方开根号为1

L1

就是二者之和为1，

1. 1. 特征工程的涵盖范围

特征建构：建构新的特征，探索特征间的关联

运用外部数据，数据探索，专家经验，数据分析，的特征建构方法

特征选择：选择一部分有用的特征，对坏特征say no

统计方式，高度相关特征，模型方式（随机森林，决策树），递归式的特征选择（逐步回归之类的）

特征转化：（有前提例如PCA）运用数学方法（简单的加减乘除主成分因子分析等），合并旧字段（可以是坏特征）产生新特征，提取隐藏在数据中的潜在结构

线性（PCA，矩阵分解NMF，SVD，TSVD，LDA）

非线性（Kernel PCA，tSNE,神经网络）

两种线性转化

特征学习：（无前提）运用深度学习，自动学习新特征。

（关联规则，神经网络，深度学习）为基础的特征学习，词嵌入为基础的文本特征学习

以AI促进AI

关注

2
点赞
踩
3

收藏

觉得还不错? 一键收藏
打赏
1
评论
【特征工程概要】解释什么是特征，特征工程的步骤

特征工程的介绍，和步骤说明
复制链接

扫一扫

专栏目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

晴天qt01 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。