数据挖掘与知识发现基础知识

初学数据挖掘与知识发现,对有关基础知识做一些笔记和思考
[size=x-large]一数据挖掘的背景[/size]
[size=large](一)[/size].什么是数据挖掘?什么是知识发现?知识发现:knowledge Discovery in Database,KDD,我的理解是知识发现是从海量数据中分析出对我们有用的数据,而最初数据挖掘是作为知识发现的一个步骤,或者说是知识学习的这个阶段叫数据挖掘,后来数据挖掘逐渐演变成KDD的同义词。当然数据挖掘我们也可以理解其为一个数据分析方法。

[size=large](二).[/size]什么是数据仓库?和数据挖掘的区别是什么?我的理解是,数据仓库是数据挖掘的对象,数据仓库提供数据给我们挖掘。

[size=large](三)[/size].数据挖掘和传统数据分析方法的区别:区别一数据挖掘所面对的数据和以前面对的数据有着显著的区别。那么,现在的数据源和以前的区别有哪些?首先,现在的数据源更加海量了,其次,现在的数据可能不是结构化数据,什么是结构化数据?应用百度百科的说法:[quote]即行数据,存储在数据库里,可以用二维表结构来逻辑表达实现的数据,而非结构化数据是指,数据库二维逻辑表来表现的数据即称为非结构化数据,比如xml,html,图像,视频,文本等[/quote],这里还要注意一个半结构化数据,就是结构化的数据结构变化很大,其字段会根据需要扩充,比如说简历,每个人的简历不同,其中要存储的数据也就不同。
[url]http://baike.baidu.com/view/2119114.htm[/url],第三,可能出现数据噪声,就是损坏的数据,也就是无意义的数据。
区别二:分析方法不同,传统的数据分析方法是先给定一个假设,然后我们通过分析数据去验证这个假设,而数据挖掘并没有假设,相反,它是发现假设的。

[size=large](四)[/size],为什么要有数据挖掘,为了从大量的数据中找出对我们有用的数据。

[size=x-large]二数据挖掘可以完成的主要功能[/size]

[size=large](一)[/size]概念/类别描述(包括数据特征化和数据区分):我的理解就是用数据挖掘进行分析,获得这个类或是概念的总体性的描述。并将目标类数据对象的一般特性与一个或多个对比类对象的一般特性进行比较。

[size=large](二)[/size]关联规则,关联规则X->Y表示满足X的数据库元组很可能满足Y。
[size=large](三)[/size]分类与预测,分类是我们分析一个已知的类别来建立一个模型,通过这个模型我们可以判断出类别未知的类的类别,其中这里的模型有分类规则(if-then),决策树(每个节点对应一个事件或决策,而每个事件或决策都能引出多个事件或决策。在沿着决策树从上到下遍历的过程中,在每个节点都会遇到一个问题,对每个节点上问题的不同回答导致不同的分支,最后会到达一个叶子节点。这个过程就是利用决策树进行分类的过程,利用几个变量,每个变量对应一个问题,来判断所属的类别,最后每个叶子会对应一个类别。),神经网络。而预测更加偏向的是预测一个连续的数值。

[size=large](四)[/size]聚类分析:把一组数据分成不同的簇,每簇中数据相似而不同簇间的数据则距离较远。

[size=large](五)[/size]时间序列分析,时间序列分析通过大量时间序列数据的分析找到特定的规则和感兴趣的特性。

[size=large](六)[/size]离群点分析:离群点是指与一般数据的行为或模型不一致的那些点。

[size=large](七)[/size]演变分析:描述行为随时间变化的对象的规律和趋势,并对其建模。

[size=x-large]三数据挖掘模型[/size]
[size=medium]1[/size].什么是数据挖掘模型?我的理解就是我们用这个模型去进行数据挖掘或者为数据挖掘的步骤,其模型为CRISP-DM(Cross Industry Standard Process for Data Mining)。

[size=x-large]四知识发现实现流程[/size]
[size=large](一)[/size]数据准备
我们不好直接在收集的数据上进行数据挖掘,我们要做一些准备工作,也就是数据的预处理,包括净化损坏数据,推测缺失数据,转换离散型数据,数据缩减。

[size=large](二)[/size]数据挖掘,根据KDD的目的,选取相应的算法的参数,分析数据,得到可能形成知识的模式模型。

[size=large](三)[/size]模式评估,通过上面得到的模式,我们要进行评估,发现其是否有效或有用,并且把这些模式转变为客户能够理解的语言。

[size=large](四)[/size]知识应用,通过得到的知识,我们进行运用。
  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值