特征工程（三）数挖不同类型数据特征工程中处理pipeline

最新推荐文章于 2025-05-12 21:18:32 发布

Daniel李_

最新推荐文章于 2025-05-12 21:18:32 发布

阅读量625

点赞数

分类专栏：数据挖掘#特征工程

本文链接：https://blog.csdn.net/weixin_41814051/article/details/104408914

版权

本文简要概述了在特征工程中处理结构化数据（如离散数值、连续数值、日期）和非结构化数据（如文本、网络关系节点）的一般步骤。涉及内容包括数值特征的预处理、离散值和连续值的处理、日期特征的转化、文本特征的提取（如词袋模型、TF-IDF、词嵌入）以及网络节点的特征处理。同时提供了相关文章链接以供深入学习。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

非常简略的整理下在做特征工程我针对不同数据会采用的一些常规流程，不做具体介绍。

结构化数据

离散数值、连续数值、日期

非结构化数据

文本、网络关系节点

一.数值特征

1. 预处理

2. 离散值处理

labelEncoder / map / one-hot-encoding / get_dummy

特征交叉

二值特征转换

类别合并

多项式特征（模型用SVM）

3. 连续特征离散化

binning

分位数切分

4. 对数变换（模拟正态分布）

二.日期特征

ts_objs = np.

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

Daniel李_

关注关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

《Python星球日记》第49天：特征工程与全流程建模

Code_流苏：在代码中寻诗意，在实践中觅真知

05-07

538

《Python星球日记》第49天：特征工程与全流程建模

机器学习算法之数据预处理与特征工程

不曾走远的博客

08-13

1万+

目录 1 特征工程是什么？ 2 数据预处理 2.1 无量纲化 2.1.1 标准化 2.1.2 区间缩放法 2.1.3 标准化与正则化的区别 2.2 对定量特征二值化 2.3 对定性特征哑编码 2.4 缺失值计算 2.5 数据变换 2.6 回顾 3 特征选择(feature_selection) 3.1 Filter 3.1.1 移除低方差的特征 (Removing fe...

参与评论您还未登录，请先登录后发表或查看评论

特征工程（三）不同类型数据处理pipeline

01-07

非常简略的整理下在特征工程我会采用的一些常规流程，不做具体介绍。一.数值特征 1. 预处理 2. 离散值处理 labelEncoder / map / one-hot-encoding / get_dummy 二值特征转换多项式特征（模型用SVM） 3. 连续特征离散化 binning 分位数切分 4. 对数变换（模拟正态分布）二.日期特征 ts_objs = np.array([pd.Timestamp(item) for item in np.array(df.Time)]) 转换成timestamp标准格式 '2015-03-08 10:30:00.36

深度学习中的特征工程

auvs67634的博客

11-29

1503

什么是特征工程？顾名思义，特征工程是一种工程活动，目的是从原始数据中最大限度的提取出能表征原始数据信息的特征。数据和特征决定了机器学习的上限，算法和模型不过是逼近这个上限。不过深度学习不用像传统机器学习那样人为合成高级复杂特征，只需利用人类的先验知识处理一阶特征，后面深度学习会自己学习到相关的复杂特征。数据类型不同的数据有不同的数据类型，而不同数据类型的数据处理方式也不同 ...

实在智能RPA学院|高性能特征工程Pipeline设计要点

bobobit的博客

04-27

631

用sklearn mysql_使用sklearn 将特征工程集成到pipeline中

weixin_39998906的博客

02-07

192

目录1 使用sklearn进行数据挖掘1.1 数据挖掘的步骤1.2 数据初貌1.3 关键技术2 并行处理2.1 整体并行处理2.2 部分并行处理3 流水线处理4 自动化调参5 持久化6 回顾7 总结8 参考资料1 使用sklearn进行数据挖掘1.1 数据挖掘的步骤数据挖掘通常包括数据采集，数据分析，特征工程，训练模型，模型评估等步骤。使用sklearn工具可以方便地进行特征工程和模型训练工作，在...

pipeline 对部分特征进行处理

weixin_30672295的博客

08-17

227

http://scikit-learn.org/stable/auto_examples/preprocessing/plot_function_transformer.html#sphx-glr-auto-examples-preprocessing-plot-function-transformer-py 利用下面的方法实现，先对某一些进行选择，然后利用featureUnin 进行合并，重...

特征工程（Feature Engineering）

Rhett_Butler0922的博客

04-29

815

特征工程是指通过对原始数据进行处理和转换，创建出能够更好地描述问题本质的特征（Feature），从而提高机器学习模型性能的过程。简单来说，它是将“原始数据”变成“对模型更有用、更容易理解的数据”的艺术与科学。它需要结合数据探索、领域知识和创造力，通过数据清洗、特征创建、转换、编码和选择等步骤，最大化数据的价值。特征是数据集中的一个变量（或列），通常用来描述数据的某种属性。例如，在一个预测房价的数据集中，房子的面积、卧室数量、所在城市等都是特征。：包含房子的面积、卧室数量、所在城市、建成年份、房价等。

神经网络中的特征工程：如何为模型准备优质数据？

最新发布

AI天才研究院

05-12

704

在深度学习时代，尽管神经网络具备强大的特征学习能力，但优质的特征工程仍是决定模型性能的关键因素。数据预处理的核心方法论结构化/非结构化数据的特征提取策略特征选择的数学原理与算法实现特征转换的高级技术实践自动化特征工程工具的工程化应用目标是为数据科学家和机器学习工程师提供可落地的特征工程实施路线图，解决从数据到模型输入的关键转换问题。基础理论：定义核心概念，建立特征工程与神经网络的技术关联技术体系：分模块讲解预处理、提取、选择、转换的关键技术。

【ML特征工程】第 1 章：机器学习管道

sikh_0529的博客

11-24

585

在深入研究特征工程之前，让我们花点时间看一下整个机器学习管道。这将帮助我们了解应用程序的大局。为此，我们将从对数据和模型等基本概念进行一些思考开始。

[译]文本特征提取与评估的样品Pipeline

漫步量化

06-26

331

本文译自Sample pipeline for text feature extraction and evaluation，部分地方加自己理解下的注释，非专业人士，部分名词可能翻译有误，恳谢指正。本例中采用的数据集是20 newsgroups数据集，他可以自动下载并告诉存储，可重复用于文档分类案例。通过给数据集加载器指定name，可以调整类别数目。也可以采用默认值20. 这是一个跑在四...

feature-extraction-pipeline:用于从图像中以python计算形态和纹理特征的管道

03-19

feature-extraction-pipeline:用于从图像中以python计算形态和纹理特征的管道

【Python机器学习系列】针对特定数据构建管道流水线进行机器学习预测（案例+源码）

数据杂坛

06-20

771

针对特定数据构建管道流水线进行机器学习预测（案例+源码）

数据挖掘学习（一）：特征工程

ch18328071580的博客

08-03

1228

文章目录概述一、特征选择1、选择合适的特征1.1 过滤法选择特征1.2 包装法选择特征1.3 嵌入法选择特征2、寻找高级特征二、特征表达2.1 缺失值处理2.2 特殊的特征处理2.3 离散特征的连续化处理2.4 离散特征的离散化处理2.5 连续特征的离散化处理三、特征预处理3.1 特征的标准化和归一化3.2 异常特征样本清洗3.3. 处理不平衡数据概述特征...

【Pytorch神经网络实战案例】32 使用Transformers库的管道方式实现：加载指定模型+文本分类+掩码语言建模+摘要生成+特征提取+阅读理解+实体词识别

小李的研究生学习日记

04-23

1万+

一、解决问题 AttributeError: module 'torch.utils' has no attribute 'data' 二、解决思路属性错误:模块的'torch.utils'没有属性'data' 三、解决方法只需在顶行添加此代码即可！ import torch.utils.data # 新添加代码 ...

语义分割

Rosun

09-27

7136

IntroductionSemantic Segmentation:将图像中每个像素分配到某个对象类别。图像语义分割中存在3种挑战：（1）特征分辨率减少，（2）不同尺度下的物体的存在状况，（3）由于深度卷积神经网络的不变性造成的定位精度减少。第一个挑战是由基于分类的卷积神经网络包含重复最大池化和降采样（步长跨度）操作造成的。深度卷积神经网络采用全卷积方式的时候，会明显降低特征地图的空间分辨率。

CRF对分割图像进行优化处理

热门推荐

heavenpeien的博客

04-11

2万+

CRF是对FCN等处理后的图像进行优化处理，不进行训练和学习示例代码如下，向crf函数输入，原始图像，FCN分割后的图像输出优化后的图像， import sys import numpy as np import pydensecrf.densecrf as dcrf import cv2,os # Get im{read,write} from somewhere. try: fr...

CRF图像分割简介

thesby的专栏

03-24

2万+

这里主要是讲Conditional Random Fields(CRF)用于pixel-wise的图像标记（其实就是图像分割）。CRF经常用于 pixel-wise的label 预测。当把像素的label作为形成马尔科夫场随机变量且能够获得全局观测时，CRF便可以对这些label进行建模。这种全局观测通常就是输入图像。令随机变量XiX_i是像素ii的标签。 Xi∈L={l1,l2,...,lL}X

Pipeline管道选择分类模型或者预处理方式

weixin_45690942的博客

06-11

680

Pipeline管道选择分类模型或者预处理方式举个例子注意事项上代码输出参考资料举个例子进一步我们可以将GridSearchCV 与 Pipeline 结合起来，还可以搜索管道中正在执行的实际步骤（比如用 StandardScaler 还是 MinMaxScaler）但是，有时候会导致搜索空间很大，尝试所有的可能方案，通常不是一种可行的机器学习方案。下面让我们进行一个例子，搜索是用 RandomForestClassifier 还是 SVC ,而 SVC 有可能要对数据进行缩放，那么还需要搜索是

python特征工程之数据

01-04

### Python 中的特征工程技术与数据预处理 #### 使用 Pandas 和 Scikit-Learn 进行特征工程在 Python 的数据预处理领域，Pandas 是最常用的库之一。通过 Pandas 可以轻松操作结构化数据，并提供多种功能用于清理和转换数据[^1]。 ```python import pandas as pd # 创建示例 DataFrame data = {'age': [25, 30, None, 45], 'income': [70000, 80000, 90000, 100000]} df = pd.DataFrame(data) # 处理缺失值：填充平均数 mean_income = df['income'].mean() df.fillna({'age': mean_income}, inplace=True) ``` Scikit-learn 提供了许多实用的功能来进行更复杂的特征变换。例如： - **标准化 (Standardization)**: 将数值型特征缩放到零均值单位方差。 ```python from sklearn.preprocessing import StandardScaler scaler = StandardScaler() scaled_features = scaler.fit_transform(df[['income']]) ``` - **独热编码 (One-Hot Encoding)**: 对分类变量进行二元向量表示。 ```python categorical_columns = ['category'] encoded_df = pd.get_dummies(df, columns=categorical_columns) ``` #### 应对异常值的方法对于异常值检测，可以采用箱线图法或 Z-Score 法等统计学手段来识别并处理异常情况[^2]。 ```python def detect_outliers_zscore(data): from scipy.stats import zscore threshold = 3 outliers = [] zscores = zscore(data) for i in range(len(zscores)): if abs(zscores[i]) > threshold: outliers.append(i) return outliers outlier_indices = detect_outliers_zscore(df['income']) print(f'Outliers found at indices {outlier_indices}') ``` #### 构建管道简化工作流程为了使整个过程更加自动化且易于管理，建议构建一个完整的机器学习流水线。这不仅提高了效率还减少了人为错误的可能性。 ```python from sklearn.pipeline import Pipeline from sklearn.impute import SimpleImputer from sklearn.compose import ColumnTransformer numeric_features = ['age', 'income'] numeric_transformer = Pipeline(steps=[ ('imputer', SimpleImputer(strategy='median')), ('scaler', StandardScaler())]) preprocessor = ColumnTransformer( transformers=[ ('num', numeric_transformer, numeric_features)]) pipeline = Pipeline(steps=[('preprocessor', preprocessor)]) X_prepared = pipeline.fit_transform(df) ```