数据挖掘的步骤流程

最新推荐文章于 2021-09-06 12:38:01 发布

Java happy

最新推荐文章于 2021-09-06 12:38:01 发布

阅读量627

点赞数

分类专栏：数据挖掘文章标签：数据挖掘机器学习 python

原文链接：https://blog.csdn.net/cppjava_/article/details/76820427

版权

数据挖掘专栏收录该内容

1 篇文章 0 订阅

订阅专栏

背景：数据挖掘的实验课上了一半了，自己对基本的数据挖掘流程印象薄弱，以此来建立初步体系概念

数据挖掘的步骤流程

1.问题定义：

需要解决什么问题？分类问题 or 回归问题
怎么样才算达到目的？量化
怎么才能达到目的？涉及到数据清洗、模型选择、调参等指标

2.数据获取：

工作中需要掌握LINUX和SQL的基本操作来获取数据。

平时留意这方面

3.数据清洗：

清除重复样本(属性)，偏离整体样本的数据

4.缺失值处理：

(1).把是否缺失直接当做一种特征输入到模型中，比如说各种树模型。

(2).样本缺失较少，使用均值或众数填充；当样本数据与时间有关联，填充应参考相关的时间信息。

(3).缺失较多时，可以考虑直接清洗掉属性(样本)

5.特征选择：

避难维灾难，降低模型复杂度，使模型可解释化

(1).过滤式选择：计算每个特征与预测变量的相关性，过滤掉较低的特征。
Pandas中许多函数：describe, value_couns(),
pyplot 画图表示出来

(2).降维：使用相关算法(PCA)处理数据集，对特征的重要性进行排序

(3).嵌入式选择：将特征选择与学习器结合，让模型训练过程中自动进行特征选择，比如各种树模型

6.数据集划分：

训练集和测试集： 7:3 or 6:4

注意当数据与时间相关时，数据顺序不能打乱。

1.数据归一化：一般的模型都要归一化，将数据维度跳到某范围内。

7.模型建立

(1).模型选择：先用随机森铃试试，效果不会太差，可以以此来评估后续模型的好坏

(2).建模：调包，sklearn等

(3).调参：交叉验证！范围由大到小的调，直至找到相对较好的参数

8.反思总结

(1).总结这次的思路、方法、体会

(2).research，优化

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
数据挖掘的步骤流程

数据挖掘的步骤流程1.问题定义：需要解决什么问题？分类问题 or 回归问题怎么样才算达到目的？量化怎么才能达到目的？涉及到数据清洗、模型选择、调参等指标2.数据获取：工作中需要掌握LINUX和SQL的基本操作来获取数据。平时留意这方面3.数据清洗：清除重复样本(属性)，偏离整体样本的数据4.缺失值处理：(1).把是否缺失直接当做一种特征输入到模型中，比如说各种树模型。(2).样本缺失较少，使用均值或众数填充；当样本数据与时间有关联，填充应参考相关的时间信息。(3).缺失较多时
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。