《数据仓库与数据挖掘》期末复习总结(1)


第一章 引论

1、OLAP

联机分析处理(对数据仓库操作:下钻、上卷)

2、大数据的5V特征

大量化、多样化、快速化、价值密度低、真实性高

3、数据挖掘

DM,是从海量的数据中抽取感兴趣的(有价值的、隐含的、以前没有用但是潜在有用信息的)模式和知识的过程。

4、数据挖掘实验基本步骤

(1)准备数据(训练数据、检验数据)

  • 传统数据库、数据仓库、平面文件

(2)选择一种数据挖掘技术或算法,将数据提交给数据挖掘软件
(3)解释和评估结果
(4)模型应用

5、数据挖掘过程

(1)数据清理
(2)数据集成
(3)数据选择
(4)数据变换
(5)模式发现
(6)模式评估
(7)知识表示

6、数据的基本形式

数据库数据(E-R图)、数据仓库数据(数据立方体)、事务数据

7、数据挖掘任务:描述性、预测性

(1)类/概念描述:特征化与区分
(2)挖掘频繁模式(频繁项集、频繁子序列、频繁子结构)、关联(单维关联规则、多维关联规则)、相关性
(3)用于预测分析的分类与回归

  • 分类:分类规则(IF-THEN)、决策树、数学公式、神经网络、朴素贝叶斯分类、支持向量机、k最近邻分类
  • 回归分析:预测缺失的或难以获得的数值数据值
  • 相关分析:识别与分类和回归过程显著相关的属性

(4)聚类分析:无标记类的数据,根据最大化类内相似性、最小化类间相似性进行聚类或分组,形成对象的簇
(5)离群点分析(异常挖掘)
(6)时间和序列
1)序列,趋势和演化分析

  • 序列模式的挖掘
  • 周期分析
  • 基于相似性的分析

2)数据流挖掘

  • 有序的,随时间改变,可能是无穷的数据流

8、模式兴趣度的客观度量

规则的支持度、置信度、分类(IF-THEN)规则的准确率与覆盖率

9、数据仓库

是一种用于长期存储数据的仓库,这些数据来自多个数据源,是经过组织的,以便支持管理决策。这些数据在一种统一的模式下存放,并且通常是汇总的。数据仓库提供一些数据分析能力,称做联机分析处理。

10、挖掘什么数据

在这里插入图片描述

11、机器学习分类

  • 监督学习:已知分类或输出结果值
  • 数据实例、训练实例、检验实例
  • 无监督学习:无预先定义好分类的实例
  • 半监督学习
  • 主动学习

12、数据挖掘面临的挑战

  • 挖掘方法
  • 用户交互
  • 效率和可扩展性
  • 数据类型的多样性
  • 数据挖掘和社会

13、Anaconda包管理

在这里插入图片描述
conda list|grep python:过滤出与python相关的安装包

14、Anaconda环境管理

在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值
>