特征工程（1）特征工程的简介

最新推荐文章于 2024-08-27 15:16:31 发布

Campbell001

最新推荐文章于 2024-08-27 15:16:31 发布

阅读量1.5k

点赞数 4

分类专栏：特征工程文章标签：机器学习

本文链接：https://blog.csdn.net/Campbell001/article/details/105136833

版权

特征工程专栏收录该内容

6 篇文章 2 订阅

订阅专栏

特征工程入门与实践笔记

特征工程是什么

将数据转换为能更好的表示潜在问题的特征，从而提高机器学习性能

特征工程内容

转换数据的过程

特征工程适用于任何阶段的数据，通常将数据处理成表格形式，数据组织成行（观察值）列（属性）的形式。

特征

特征是对机器学习的过程有意义的数据属性。
无意义的只是普通属性，而有意义的才称之为特征

更好的表示潜在问题

需要使用的数据代表了某领域内的某问题，转换数据的目的是为了更好的表达更大的问题

提高机器学习性能

特征工程不仅需要获得更干净的数据，而且最重要在机器学习流水线中使用这些数据。
特征工程的目的是让我们获取更好的数据，以便学习算法从中挖掘模式，取得更好的效果

数据和机器学习的基础知识

监督学习（预测分析）

监督学习算法专门处理一个值的任务，通常是用数据中的其他属性来预测余下的一个属性

响应（response）：希望预测的属性
特征（feature）：剩余属性

也可以认为监督学习是一种利用数据结构的算法：利用漂亮的数据提取模式。通过探索结构进行预测

漂亮的数据：使用特征工程处理的数据

无监督学习

从数据中提取结构，一般对数据的数值矩阵或迭代过程应用数学变换，提取新特征
例如聚类：从一堆数据中对一些相似的值，将其划分成为某一类，成为一个新的特征

机器学习算法和特征工程的评估

特征和属性是有明显的区分的
- 特征：对机器学习有益的类
- 属性：表格数据的列（可能存在某些属性对机器学习系统不一定有益，甚至有害）

特征工程的评估步骤

在应用任何特征工程前，得到机器学习模型的基准性能
应用一种或多种特征工程
对于每种特征工程，获取一个性能指标，并与基准性能进行对比
如果性能的增量大于某个阈值（自己定义），则认为该特征工程有益，并在机器学习上应用
性能的改变一般按照百分比计算（基准性能从40%上升到76%的准确率，那么改变就是90%）

评估监督学习算法

将监督学习分为两种更具体的类型：分类和回归

分类（预测定性响应）

使用5折交叉验证计算逻辑回归模型的准确率

from sklearn.linear_model import LogisticRegression
from sklearn.model_selection import cross_val_score
X = some_data_in_tabular_format
y = response_variable
lr = LinearRegression()
scores = cross_val_score(lr, X, y, cv=5, scoring='accuracy')
scores

回归（预测定量响应）

使用均方误差（MSE）进行评估，使用五折交叉验证

from sklearn.linear_model import LinearRegression
from sklearn.model_selection import cross_val_score
X = some_data_in_tabular_format
y = response_variable
lr = LinearRegression()
scores = cross_val_score(lr, X, y, cv=5, scoring='mean_squared_error')
scores

使用这两个线性模型的原因是因为可以更加确定，性能的增长直接和特征工程相关

评估无监督学习算法

因为无监督学习不做出预测，所以无法直接更具模型预测的准确率进行评估。

聚类：将数据按特征行为进行分类
- 主要使用轮廓系数作为测量指标

attributes = tabular_data
cluster_labels = outputted_labels_from_clustering

from sklearn.metrisc import silhouette_score
silhouette_score(attributes, cluster_labels)