数据预处理与特征工程概述

最新推荐文章于 2024-07-17 01:42:37 发布

功夫大笨鲨

最新推荐文章于 2024-07-17 01:42:37 发布

阅读量181

点赞数

分类专栏：数据预处理与特征工程文章标签： 1024程序员节 sklearn 数据挖掘

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/m0_50572604/article/details/120942632

版权

数据挖掘预处理特征工程 sklearn 模型构建

关键词由CSDN通过智能技术生成

数据预处理与特征工程专栏收录该内容

3 篇文章 0 订阅

订阅专栏

文章目录

前言
一、数据挖掘的五大流程
二、 sklearn中的数据预处理和特征工程
总结

前言

加油，坚持住，跟着菜菜继续学

一、数据挖掘的五大流程

1.获取数据

2. 数据预处理

数据预处理是从数据中检测，纠正或删除损坏，不准确或不适用于模型的记录的过程

可能面对的问题有：数据类型不同，比如有的是文字，有的是数字，有的含时间序列，有的连续，有的间断。也可能，数据的质量不行，有噪声，有异常，有缺失，数据出错，量纲不一，有重复，数据是偏态，数据量太大或太小。

数据预处理的目的：让数据适应模型，匹配模型的需求

3.特征工程

在这里插入图片描述

特征工程是将原始数据转换为更能代表预测模型的潜在问题的特征的过程，可以通过挑选最相关的特征，提取特征以及创造特征来实现。其中创造特征又经常以降维算法的方式实现

可能面对的问题有：特征之间有相关性，特征和标签无关，特征太多或太小，或者干脆就无法表现出应有的数据现象或无法展示数据的真实面貌

特征工程的目的：1) 降低计算成本，2) 提升模型上限

4. 建模，测试模型并预测出结果

5.上线，验证模型效果

二、 sklearn中的数据预处理和特征工程

sklearn六大板块中有两块都是关于数据预处理和特征工程的，两个板块互相交互，为建
模之前的全部工程打下基础。

模块preprocessing：几乎包含数据预处理的所有内容
模块Impute：填补缺失值专用
模块feature_selection：包含特征选择的各种方法的实践
模块decomposition：包含降维算法

总结

详细数据预处理与特征工程学习笔记在下方链接
数据预处理

功夫大笨鲨

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。