数据挖掘导论笔记第一章·绪论

绪论这一章节作为本书的第一章,总体分为以下几个方面:

1.0数据分析技术在社会各行各业的应用

具体在工商业和医学科学方面的实践。不论在各行各业的应用,总结为收集数据(信息),对数据的处理(得到对事情的大体了解),和接下来的措施(如何处理这种现问题)。

1.1对数据挖掘的定义

是在大型数据库中自动地发现自动发现有用信息的过程,是数据库中知识发现不可缺少的一部分。数据库中知识发现:将未加工的数据转换为有用信息的过程(对数据的处理)(KDD)

数据挖掘技术的应用:探查大型数据库,预测观测结果,

下面是KDD的具体过程

1.2数据挖掘要解决的问题

1 可伸缩 算法的可伸缩可以处理海量数据集

实现可伸缩程度的方法:实现新的数据结构,抽样技术的使用,开发并行和分布式算法。

2 高维性 数据集的快速发展具有很多属性,计算复杂度也会迅速增加,使低维数据开发的传统数据分析技术不能很好地处理这类高维数据。

异构数据和复杂数据 数据挖掘作为传统数据分析方法的进阶,需要处理异构属性的数据和非传统类型的复杂数据。

4 数据所有权和分布 开发分布式数据挖掘技术可以将需要分析的数据从一个站点或一个机构分散到多个机构的数据源中。

非传统分析 传统的数据统计方法基于一种假设检验模式:提出一种假设,设计实验收集数据,针对假设分析数据。然而这种分析在面对当前海量数据是行不通的,所以迫切需要数据挖掘技术来自动的产生和评估假设。同时,数据挖掘分析的数据集不是精心设计的实验的结果,并且他们通常代表数据的时机性样本,不是随机样本。

分布式数据挖掘算法面临的主要挑战:如何降低分布式数据计算所需的通信量,如何有效地统一从多个数据源获得的数据挖掘结果,如何解决数据安全和隐私问题。

1.3数据挖掘的起源

最初被认为是KDD的一个中间过程,后来发展为计算机科学的一个学术领域,关注KDD的所有方面,包括数据预处理,数据挖掘和后处理。当时的研究人员借鉴的思想方法:1.来自统计学的抽样、估计和假设检验2.来自人工智能、模式识别、机器学习的搜索算法、建模技术和学习理论。作为一个交互领域,它还特别需要数据库系统提供高效的存储、索引和查询处理,同时还需要分布式技术帮助处理海量数据。

数据科学和数据驱动的发现

数据科学的定义:是一个研究及应用工具和技术从数据中获得有用的见解的跨学科领域。作为一个新兴领域,需要广泛的计算、数学和统计能力,是一个建立在许多领域持续合作基础上的高度跨学科的领域。

数据驱动的方法强调从数据中直接发现模式和关系,被认为是具有挑战性的领域特别成功。

1.4数据挖掘任务

1.预测任务:目标是根据其他属性的值预测特定属性的值。被预测的属性被称为目标变量或因变量,用来做预测的属性称为解释变量或自变量。

2.描述任务:目标是导出概述数据中潜在联系的模式(相关、趋势、聚类、轨迹和异常)。本质上,描述性数据挖掘任务通常是探查性的,并且常常需要后处理技术验证和解释结果。

其余的4种主要的数据挖掘任务:

1.预测建模:指为目标变量建立模型,并将其作为解释变量的函数。有两种预测建模任务:分类,用于预测离散的目标变量;回归,用于预测连续的目标变量。

2.关联分析:用来发现描述数据中强关联的模式。所发现的模式通常用蕴含规则或特征子集的形式表示。由于搜索空间是指数规模的,关联分析的目标是以最有效的方式提取最有趣的模式。

3.聚类分析:旨在发现紧密相关的观测值组群,使得属于不同簇的观测值相比,属于统一簇的观测值相互之间尽可能类似。聚类可用来对相关顾客的分组、找出显著影响地球气候对的海洋区域以及压缩数据等。

4.异常检测:任务是识别其特征显著不同于其他数据的观测值。这样的观测值称为异常点或离群点。异常检测算法的目标是发现真正的异常点,而避免错误地将正常的对象标注为异常点。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值