数据仓库与数据挖掘归纳汇总

本文详述了数据仓库的定义、元数据、访问工具、数据抽取与转换、数据集市、数据仓库管理等内容,以及数据挖掘的过程、数据处理分类、数据仓库与数据挖掘的区别。此外,还介绍了数据仓库的体系结构模型、数据抽取工具、数据加载、ETL过程、数据仓库的关键环节和数据仓库的发展阶段。最后,涵盖了数据仓库和数据挖掘的相关技术,如数据清理、数据集市、多维数据模型、决策树和关联规则等。
摘要由CSDN通过智能技术生成

/*
大学生一枚,只为分享知识别无他求,有兴趣一起交流,相互激励,共同进步
关注个人微信公众号:飞享
文中相应链接都是对应知识点补充说明
*/

数据仓库
1.数据仓库:面向主题的,集成的,稳定的,反映历史变化的数据集合,通常用于辅助决策支持。
2.元数据:描述数据仓库内数据的结构和建立方法的数据。
3.元数据是数据仓库运行和维护的中心内容,数据仓库系统对数据的存取和更新都需要元数据信息。
4.根据元数据用途的不同可将元数据分为技术元数据和业务元数据。
5.访问工具:用户访问数据仓库提供的手段,数据查询和报表工具,应用开发工具,数据挖掘工具,数据分析工具。
6.数据仓库数据库:数据信息存放的地方,对海量数据进行存取和检索支持。
7.数据抽取工具:把数据从各种各样的存取环境中提取出来,进行必要的转化,整理,再存放到数据仓库内。
8.数据转换内容:删除对决策分析没有意义的数据,转换到统一的数据名称和定义,计算统计和衍生数据,填补缺失数据,统一不同的数据定义方式。
9.数据集市:为了特定的应用目的,从数据仓库中独立出来的一部分数据,也称为部门数据或主题数据。
10.数据仓库管理:包括安全和权限管理,数据更新的跟踪,数据质量的检查,元数据的管理与更新,数据仓库的使用状态的监测与审计,数据复制与删除,数据分割与分发,数据备份与恢复,数据存储管理。
11.信息发布系统:用于把数据仓库中的数据或其他相关的数据发送给不同的地点或用户。
12.数据挖掘:从大量数据中获取有效的,新颖的,潜在有用的,最终可理解的模式的过程。就是从大量数据中提取和挖掘知识。
13.数据处理分两类:联机事务处理(OLTP),联机分析处理(OLAP)
14.数据挖掘步骤:
a.数据清理:消除噪声数据
b.数据集成:多种数据组合在一起
c.数据选择:选择相关数据
d.数据变换:汇总等操作将数据变换成适合挖掘的数据
e.数据挖掘:对数据进行操作
f.模式评估:根据某种模式来评估其价值
g.知识表示:可视化表现
15.数据仓库的粒度是指数据的细节或汇总程度,细节程度越高,粒度级别越低。
16.数据仓库与数据挖掘的区别:数据仓库是一种存储技术,适应于不同用户对不同决策需要提供所需的数据和信息。数据挖掘研究各种方法和技术,从大量信息中挖掘出有用的信息和知识。
17.多维数据模型:星型模型,雪花模型,星网模型,第三范式
18.ETL过程:数据仓库的数据获取需要经过抽取,转换,装载三个过程。
19.基本多维数据分析的基本操作:切片,切块,旋转,钻取。
20.粒度:数据仓库中数据单元的详细程度和级别。数据越详细,粒度越小,层次级别越低;数据综合度越高,粒度越大,层次级别越高。
21.数据仓库关键环节:数据抽取,数据存储与管理,数据表现。
22.商业智能:商业智能以数据库为基准,通过联机分析处理和数据挖掘技术帮助企业领导者针对市场变化的环境,做出快速准确的决策。
23.数据仓库是一个作为决策支持和联机分析应用系统数据源的结构化数据环境,数据仓库要研究和解决的就是从数据库中获取信息的问题。
24.数据仓库组成:数据仓库数据库,数据抽取工具,元数据,访问工具,数据集市,数据仓库管理,信息发布系统。
25.数据仓库体系结构模型:两层体系结构,基于独立数据集市的体系结构,基于依赖型数据集市和ODS的体系结构,基于逻辑型数据集市的实时数据仓库体系结构。
26.操作型数据存储:集成的,面向主题的,可更新的,当前值的,企业级的,

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值