数据挖掘(一) 引论

一.为什么要进行数据挖掘:

1.迈向信息时代:

信息时代 = 数据时代

数据挖掘(KDD)把大型数据集转换成知识

2.数据挖掘是信息技术的进化:

(1)数据仓库: 这是一种多个异构数据源在单个站点以统一的模式组织的存储,以支持管理决策,一种数据存储结构,用于长期存储数据的仓库

(2)数据仓库技术:包括数据清理、数据集成和联机分析处理(OLAP)

(3)OLAP联机分析处理:一种分析技术,具有汇总、合并和聚集以及从不同角度观察信息的能力

二.什么是数据挖掘:

1.数据中的知识发现(KDD)

2.知识发现过程(前四步是数据预处理的不同形式,为数据挖掘准备):

(1)数据清理(消除噪声和删除不一致数据)

(2)数据集成(多种数据源可以组合在一起)

(3)数据选择(从数据库中提取与分析任务相关的数据)

(4)数据变换(通过汇总或聚集操作,把数据变换和统一成适合挖掘的形式)

(5)数据挖掘(基本步骤,使用智能方法提取数据模式)

(6)模式评估(根据某种兴趣度度量,识别代表知识的真正有趣的模式)

(7)知识表示(使用可视化技术和知识表示技术,向用户提供挖掘的知识)

3.广义的数据挖掘:

从大量数据中挖掘有趣模式和知识的过程,数据源包括数据库、数据仓库、Web、其他信息存储库或动态地流入系统的数据

三.可以挖掘哪些类型数据:

1.数据库数据:关系数据库最常见

2.数据仓库:

是一个从多个数据源收集的信息存储库,存放在一致的模式下,并且通常驻留在单个站点上。数据仓库通过数据清理、数据变换、数据集成、数据装入和定期数据刷新来构造。

数据仓库又称做数据立方体的多维数据结构建模,数据立方体提供数据的多维视图,并允许预计算和快速访问汇总数据;

通过提供多维数据视图和汇总数据的预计算,数据仓库非常适合联机分析处理(下钻和上卷)

多维数据挖掘,又称探索式多维数据挖掘:把数据挖掘的核心技术与基于OLAP的多维分析结合在一起,在不要的抽象层的多维组合中搜索有趣的模式,从而探索多维数据空间

3.事务数据:事务数据库的每个记录代表一个事务

4.其它类型的数据:多种数据类型

四.可以挖掘的类型的数据模式:

数据挖掘功能用于指定数据挖掘任务发现的模式,这些任务分为描述性和预测性。

描述性挖掘任务:刻画目标数据中数据的一般性质

预测性挖掘任务:在当前数据上进行归纳,以便做出预测

1.类/概念描述:特征化与区分

类/概念描述可以通过以下方法得到:

(1)数据特征化:目标类数据的一般特性或特征的汇总

(2)数据区分:将目标类数据对象的一般特性与一个或多个对比类对象的一般特性进行比较

(3)数据特征化和区分

2.挖掘频繁模式、关联和相关性:

频繁模式包括:

(1)频繁项集:指频繁地在事务数据集中一起出现额商品的集合,如频繁一起购买的牛奶和面包

(2)频繁子序列:比如顾客倾向于先购买一样再购买另外一样

(3)频繁子结构:可能涉及不同的结构形式,可以与项集或子序列结合在一起。一个子结构频繁出现,称其为结构模式

关联分析: 单维关联规则 多维关联规则

3.用于预测分析的分类与回归:

(1)分类: 找出描述和区分数据类或概念的模型,以便能够使用模型预测类标号未知的对象的类标号

导出模型的多种形式:分类规则、决策树、数学公式或神经网络

(2)回归:建立连续值函数模型,用来预测缺失的或难以获得的数值数据值

(3)相关分析:可能需要在分类和回归之前进行,它试图识别与分类和回归过程中显著相关的属性,我们将这些属性用于分类和回归过程

4.聚类分析:

聚类分析数据对象,不考虑类标号

原则:最大化类内相似性、最小化类间相似性

5.离散点分析:

离群点数据分析

6.模式是否有趣:

支持度、置信度

五.需要使用的技术:

1.统计学

2.机器学习:

监督学习(分类)、无监督学习(聚类)、半监督学习、主动学习

3.数据库系统与数据仓库

4.信息检索

六.面向的类型的应用:

两个流行应用: 商务智能 和 Web搜索引擎

七.数据挖掘的主要问题:

1.挖掘方法

2.用户交互

3.有效性和可伸缩性

4.数据库类型的多样性

5.数据挖掘与社会

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
《统计学方法与数据分析论》是一本关于统计学和数据分析的入门教材,在300字中我将简要回答该书的内容。 该书以统计学和数据分析为主题,旨在向读者介绍统计学的基本原理和数据分析的基本方法。首先,该书介绍了统计学的基本概念和原理,包括样本和总体、变量和测量、概率和概率分布等。读者可以通过学习这些基本概念,建立起对统计学的整体框架的理解。 接着,该书详细介绍了常见的统计学方法和数据分析技术。例如,它解释了描述性统计分析的概念和方法,用于总结和描述数据的集中趋势和离散程度。此外,该书还介绍了推断统计分析的原理和方法,包括假设检验、置信区间和回归分析等。通过学习这些方法,读者可以理解如何利用统计学来从样本数据中推断总体特征。 此外,该书还入了常见的数据分析工具和软件,例如SPSS和R语言等。它向读者展示了如何使用这些工具来分析数据,包括数据清洗、数据可视化和数据模型等。通过实际操作,读者可以学习如何应用统计学方法和数据分析技术解决实际问题。 总的来说,该书通过简明易懂的语言和实例导读者了解统计学和数据分析的基本概念、原理和方法。它不仅适用于学习统计学和数据分析的初学者,也适合需要使用统计方法和数据分析技术的研究者和专业人士阅读使用。读者通过学习该书,可以获得统计学和数据分析的入门知识,培养数据分析思维和技能。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值