《数据仓库与数据挖掘》期末复习总结(1)-(第一章 引论)
第一章 引论
1、OLAP
联机分析处理(对数据仓库操作:下钻、上卷)
2、大数据的5V特征
大量化、多样化、快速化、价值密度低、真实性高
3、数据挖掘
DM,是从海量的数据中抽取感兴趣的(有价值的、隐含的、以前没有用但是潜在有用信息的)模式和知识的过程。
4、数据挖掘实验基本步骤
(1)准备数据(训练数据、检验数据)
- 传统数据库、数据仓库、平面文件
(2)选择一种数据挖掘技术或算法,将数据提交给数据挖掘软件
(3)解释和评估结果
(4)模型应用
5、数据挖掘过程
(1)数据清理
(2)数据集成
(3)数据选择
(4)数据变换
(5)模式发现
(6)模式评估
(7)知识表示
6、数据的基本形式
数据库数据(E-R图)、数据仓库数据(数据立方体)、事务数据
7、数据挖掘任务:描述性、预测性
(1)类/概念描述:特征化与区分
(2)挖掘频繁模式(频繁项集、频繁子序列、频繁子结构)、关联(单维关联规则、多维关联规则)、相关性
(3)用于预测分析的分类与回归
- 分类:分类规则(IF-THEN)、决策树、数学公式、神经网络、朴素贝叶斯分类、支持向量机、k最近邻分类
- 回归分析:预测缺失的或难以获得的数值数据值
- 相关分析:识别与分类和回归过程显著相关的属性
(4)聚类分析:无标记类的数据,根据最大化类内相似性、最小化类间相似性进行聚类或分组,形成对象的簇
(5)离群点分析(异常挖掘)
(6)时间和序列
1)序列,趋势和演化分析
- 序列模式的挖掘
- 周期分析
- 基于相似性的分析
2)数据流挖掘
- 有序的,随时间改变,可能是无穷的数据流
8、模式兴趣度的客观度量
规则的支持度、置信度、分类(IF-THEN)规则的准确率与覆盖率
9、数据仓库
是一种用于长期存储数据的仓库,这些数据来自多个数据源,是经过组织的,以便支持管理决策。这些数据在一种统一的模式下存放,并且通常是汇总的。数据仓库提供一些数据分析能力,称做联机分析处理。
10、挖掘什么数据
11、机器学习分类
- 监督学习:已知分类或输出结果值
- 数据实例、训练实例、检验实例
- 无监督学习:无预先定义好分类的实例
- 半监督学习
- 主动学习
12、数据挖掘面临的挑战
- 挖掘方法
- 用户交互
- 效率和可扩展性
- 数据类型的多样性
- 数据挖掘和社会
13、Anaconda包管理
conda list|grep python:过滤出与python相关的安装包