数据挖掘浅析

最新推荐文章于 2023-04-27 16:15:28 发布

noaname

最新推荐文章于 2023-04-27 16:15:28 发布

阅读量563

点赞数

分类专栏：机器学习理论文章标签：数据分析数据预处理数据ETL

本文链接：https://blog.csdn.net/panda_AJ/article/details/53304125

版权

机器学习理论专栏收录该内容

2 篇文章 0 订阅

订阅专栏

数据ETL：

包括三个方面，数据抽取（Extract）， 清洗（Cleaning），转换（Transform）

数据挖掘一般过程：

1) 定义挖掘目标：熟悉应用领域背景知识，弄清用户需求；
2) 数据抽样：相关性，可靠性，有效性（不一定要使用全部的数据），保证质量；
3) 数据探索：异常值分析，缺失值分析，相关分析和周期性分析；
4) 挖掘建模：确定哪类问题，选用哪种算法；
5) 模型评价：找出最好模型，并根据业务对模型进行解释和应用；

数据探索：

包括数据质量分析和数据特征分析；
1) 数据质量分析 => 主要是“去除”脏数据（缺失值，异常值，不一致值，特殊符号）
   缺失值处理方法：删除记录，数据插补，不处理；
   异常值分析：简单统计量分析（最大最小范围），36原则，箱型图分析（以四分位和四分位距为基础）；
   一致性分析：不一致数据主要发生在数据集成过程；

2)数据特征分析 => 通过绘制图表，计算某些特征对数据进行分析；
   定量数据：绘制频率分布直方图；
   定性数据：饼图和条形图； 
   对比分析：选择合适的对比标准是关键；
   统计量分析：集中趋势度量（均值，中位数，众数），离中趋势度量（极差，标准差，变异系数，四分位数间距）；
   周期性分析，贡献度分析，相关性分析等等；

数据预处理

包括：数据清洗，数据集成，数据变换和数据规约
数据清洗：缺失值处理（删除，插值，不处理），异常值（不一定剔除，可能有用）；
数据集成：实体识别（同名异义，异名同义，单位不统一），冗余属性识别（同属性多次出现，同属性命名不统一）；
数据变换：简单函数变换，规范化，连续属性离散化，树形构造，小波变换；
数据规约：属性规约（合并，逐前向后选择，决策树归纳，主成分分析），数据规约（有参数方法，无参数方法）；