数据挖掘:概念与技术 第一章

本章介绍了数据挖掘的重要性,定义了数据挖掘为从大量数据中发现有趣模式和知识的过程。内容涵盖数据挖掘的目标、可挖掘的数据类型、模式类型、使用的技术以及面向的应用场景,强调了数据清理、数据选择、模式发现等步骤。章节还探讨了数据库与数据仓库的区别,事务数据的概念,以及数据挖掘在商务智能和Web搜索引擎中的应用。
摘要由CSDN通过智能技术生成

第一章:引论

1.1 为什么进行数据挖掘?

我们生活在大量数据日积月累的年代,分析这些数据是一种重要需求
一种流行的说法是“我们生活在信息时代”。然而,实际上我们现在生活在数据时代,世界范围的商业活动,比如:销售事物、股票交易记录、产品描述、促销、公司利润和业绩以及顾客反馈,这种可用数据的爆炸式增长和大量数据的涌入使得我们的时代真正进入了数据时代
蒸汽时代,电气时代,信息时代各自的原理

1.2 什么是数据挖掘?

作为一个多学科领域,数据挖掘可以用多种方法定义。即使术语“数据挖掘”本身也不能完全表达其主要含义。更准确的定义应该是“数据中的知识发现(KDD)”。
因此,我们采用的数据挖掘的定义是:数据挖掘是从大量数据中挖掘有趣模式和知识的过程
作为知识发现的过程,它通常包括:
(1)数据清理(消除噪声和删除不一致的数据)
(2)数据集成(多种数据源可以集合在一起)
(3)数据选择(从数据库中提取与分析任务相关的数据)
(4)数据变换(通过汇总或聚集操作,把数据变换和统一成适合挖掘的形式)
(5)模式发现(基本步骤,使用智能方法提取数据模式)
(6)模式评估(根据某种兴趣度度量,识别代表知识的真正有趣的模式)
(7)知识表示(使用可视化和知识表示技术,向用户提供挖挖掘的知识)

1.3 可以挖掘什么类型的数据

只要数据对于目标应用是有意义的,数据挖掘可以在任何类型的数据上进行,如数据库数据、数据仓库数据、事务数据和高级数据类型等

1.3.1 数据库和数据仓库的区别

(第四、五章是数据仓库、OLAP(联机分析处理))
从概念上,
数据库系统,也称数据库管理系统(DBMS),由一组内部相关的数据(称作数据库)以及一组管理和存取数据的软件程序组成。
关系数据库的汇集,每个表都被赋予一个唯一的名字。每个表都包含一组属性,并且存放着大量元祖
数据仓库是一个从多个数据源收集的信息存储库,存放在一致的模式下,

  • 2
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值