数据挖掘与知识发现

数据挖掘与知识发现

数据挖掘与知识发现有这密切的联系,从狭义的角度讲,数据挖掘是知识发现的一个环节;从广义的角度讲,数据挖掘与知识发现的含义是相同的。

知识发现(Knowledge Discovery in Database, KDD)是一个完整的数据分析过程,主要包括以下几个步骤:

  1. 确定知识发现的目标:确定知识发现的目的,要发现那些知识。

  2. 数据采集: 从网络爬虫、数据库导出、CSV文件等数据源获取目标数据采集到指定的系统中。“数据质量决定数据挖掘的上限,而算法仅仅是逼近这个上限。”

  3. 数据探索:采集到的数据往往不可以直接使用,需用采用可视化技术,将数据的特征展现出来,探索数据特征的基本统计描述、数据特征间的相似性/相异性。

  4. 数据预处理:主要包括数据清理、数据集成、数据规约、数据变换和离散化等几个部分

    (1) 数据清理:主要包括缺失值与异常值的清理

    (2) 数据集成:将多种数据源集到一起,放在一个数据仓库的过程。在数据集成的过程中会出现实体识别(Entity Resolution)、冗余属性识别、数据值冲突等问题。

    (3) 数据规约:在保证原始数据信息不丢失的前提下,减少分析使用的数据量。数据规约中最常使用的方式是维归约。维归约的含义是将原先高维的数据合理地压缩成低维数据,而减少数据量,常用的方法为特征的提取,如线性判别分析LDA和主成分分析PCA。

    (4) 数据的变换:将原始的特征数据进行归一化和标准化的操作。

    (5) 数据的离散化可通过聚类、直方图、分箱等方法完成。

  5. 数据挖掘(模型选择):对预处理后的数据进行挖掘的过程。传统的数据挖掘将算法大体分为有监督的学习与无监督的学习两种。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-k12KSunb-1601124019954)(C:\Users\Administrator\AppData\Roaming\Typora\typora-user-images\image-20200926145859057.png)]

  1. 模型评估:对数据挖掘结果的评价,也是评价模型效果好与坏的标准,常见的评估指标有精度、召回率等。
    在这里插入图片描述

知识发现过程

在这里插入图片描述

  • 2
    点赞
  • 15
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值