数据挖掘概念与技术学习笔记(1)

        很久以前就一直想好好了解下数据挖掘相关的知识,一直拖到现在。现在正处于大数据时代,数据挖掘有着广泛的应用前景。数据挖掘概念与技术.pdf

1.什么是数据挖掘?其作用和意义是什么?

近年来互联网飞速发展,快速增长的海量数据收集,存放在大型数据库中。然而,虽然数据丰富,但信息贫乏,没有强有力的工具,理解它们已经远远超出了人的能力。数据挖掘就是从大量的数据中提取或"挖掘"知识,也叫知识挖掘。通过数据挖掘工具进行数据分析,发现重要的数据模式,将数据转换为知识。数据挖掘研究的目的开发有效的数据挖掘工具。

2.数据库知识发现的一般过程

(1)数据清理(消除噪音或不一致数据)

(2)数据集成(多种数据源可以组合在一起)

(3)数据选择(从数据库中提取与分析任务相关的数据)

(4)数据变换(数据变换或同一成适合数据挖掘的形式;如通过汇总或聚类操作)

(5)数据挖掘(基本步骤,使用智能方法提取数据模式)

(6)模式评估(根据某种兴趣度度量,识别提供知识的真正有趣的模式)

(7)知识表示(使用可视化和知识表示技术,向用户提供数据挖掘的知识)


3.数据挖掘系统的主要组成部分

(1)数据仓库:一种多个异种数据源在单个站点以统一的模式组织存储,以支持管理决策。

(2)知识库:邻域知识,用于指导搜索,或评估结果模式的兴趣度。

(3)数据挖掘引擎:数据挖掘系统基本的部分,由一组功能模块组成,用于特征,关联,分类,聚类分析,演变或偏差分析。

(4)模式评估模块:通常,该部分使用兴趣度度量,并与挖掘模块交换,以便将搜索聚焦在有趣的模式上。

4.模式兴趣度的客观度量

1)支持度

对于形如的关联规则,一种客观度量是规则的支持度。规则的支持度的表示满足规则的样本百分比。支持度是概率

,其中,表示同时包含X和Y的事务,如下式所示。

                                                                                                                                       

2)置信度

置信度是条件概率P(Y|X);即包含X的事务也包含Y事务的概率,如下式所示

                                                                                        

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值