知识发现与数据挖掘概述

创建了一个微信交流群,想加入的朋友+WeChat:SODAS_MUSIC_STUDIO
1、概念:

        知识发现的全称是从数据库中发现知识(Knowledge Discovering from Datebase,KDD)。而数据挖掘的全称是从数据库中挖掘知识。KDD和DM的本质都是相同的。

2、数据挖掘的目的:

        就是从数据集中抽取和精化一般规律或模式。

3、知识发现的一般过程:

        粗略的划分为数据准备、数据挖掘、结果的评价和解释。Ps.数据挖掘是知识发现的重要的一步,所以可以不加区别的分析这两个名称,但是知识发现常用于人工智能和机器学习领域,数据挖掘流行于统计、数据分析、数据库和管理信息系统领域。)

        ①数据准备:又划分为三个子步骤,数据选取、数据预处理和数据变化

  • 数据选取:确定目标数据,即操作对象。根据用户的需要从原始数据库中抽取的一组数据。
  •  数据预处理:数据预处理一般可能包括消除噪声、推导计算机缺值数据、消除重复记录、完成数据类型转换等。(Ps.当数据开采的对象是数据仓库时,一般来说,数据预处理已经在生成数据仓库时就完成了。)
  • 数据变化:主要目的是消减数据维数,从初始特征中找出真正有用的特征以减少数据开采时要考虑的特征和变量维数。

        ②数据挖掘:

  • 首先,确定挖掘的任务或目的,如数据总结、分类、聚类、关联规则或序列模式等。
  • 当确定完挖掘的任务和目的以后,决定挖掘算法。同样的任务可以使用不同的算法实现,选择实现算法有两个考虑因素:(1)不同的数据有不同的特点,所以需要用与之相关的算法进行挖掘;(2)用户或实际运行系统的要求,有的用户可能希望获取描述型的、容易理解的知识,而有的用户系统的目的是获取预测准确度尽可能高的预测型知识。

        ③结果的评价和解释:数据挖掘阶段发现的知识模式中可能出现冗余或无关的模式,所以还要经过用户或机器的评价。若是发现所得的模式不满足用户要求,则退回发现阶段以前。调整挖掘参数,甚至换挖掘算法。

4、知识发现的任务:

        即知识发现所要得到的具体结果

        ①数据总结:目的是对数据进行浓缩,给出紧凑描述。数据挖掘主要关心从数据泛化的角度来讨论数据总结。(数据泛化:把数据库中的有关数据从底层抽象到高层次上的过程)。

        ②概念描述:

  • 特征描述:从学习任务相关的一组数据中提取出关于这些数据的特征式,这些特征式表达了该数据集的总体特征。
  • 判别描述:描述了两个或多个类之间的差异。

        ③分类:目的是提出一个分类函数或分类模型,把数据库中的数据项映射到给定类别中的一个

        ④聚类:根据数据的不同特征,划分为不同的类。使得属于同一类别的个体之间的差异尽可能的小,而不同类别的个体间的差异尽可能的大。聚类方法:统计、机器学习、神经网络和面相数据库

        ⑤相关性分析:发现特征之间或数据之间的相互依赖关系。数据相关性关系代表一个重要的可发现的知识。一个依赖关系存在于两个元素之间。若是从元素A的 值可以推出另一个元素B的值,则B依赖A。这里的元素可以是字段,也可以是字段之间的关系。

        ⑥偏差分析:基本思想是寻找观察结果与参照量之间的有意义的差别。通过发现异常,引起对特殊情况的加倍注意。包括分类中的反常实例、例外模式、观察结果对期待值的偏离以及量值随时间的变化等。

        ⑦建模:通过数据挖掘,构造出可以描述这一种活动、状态或现象的数学模型。

5、知识发现的方法

        ①统计方法:从事物的外在数量上的表现去推断事物可能出现的规律性。常见的统计方法:回归分析、判别分析、聚类分析和探索分析等。

        ②粗糙集:用于处理模糊性和不确定性。简单的说粗糙集就是由集合的上近似和下近似进行定义。可以认为粗糙集是三值隶属函数的模糊集,即是、不是、也许。常与聚类、分类和规则归纳结合使用。

  • 下近似中的每个成员都是这个集合的确定成员,若不是上近似中的成员肯定不是这个集合的成员。
  • 粗糙集的上近似=下近似+边界区。
  • 边界区的成员可能是该集合的成员,但不是确定的成员。

        ③可视化:数据、信息、知识转换为图形的表现形式过程。可视化可以是数据信息形象化。直观的对数据进行考察、分析,发现其特征、关系、模式、趋势。

        ④传统机器学习方法:符号学习和连接学习。

6、知识发现的对象

        ①数据库:研究比较多的是关系型数据库的知识发现。主要研究课题有:超大数据集、动态数据、噪声、数据不完整、冗余信息和数据稀疏等。

        ②数据仓库:面向主题的、集成的、内容相对稳定的、不同时间的数据的集合,用于支持经营管理中的决策制定过程。数据仓库是面向决策分析的。(Ps.上述红色内容也是数据仓库的四个基本特征。)

        ③Web信息:主要是结构发现和内容发现。

  • 内容发现:从Web文档中提取知识。分为对文本文档(HTML、text等)和多媒体文档(image、audio、video等)的知识发现。
  • 结构发现:从Web文档的结构信息中推导知识。包括文档之间的超链接结构、文档内部结构、文档中URL中目录路径结构等。

        ④图像和视频数据:模式识别和图像处理。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Sodas(填坑中....)

感谢老铁支持

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值