大数据学习篇

数据仓库

数据仓库是==决策支持系统(dss)和联机分析应用数据源的结构化数据环境。==数据仓库研究和解决从数据库中获取信息的问题。数据仓库的特征在于面向主题、集成性、稳定性和时变性。
特点:数据仓库是面向主题的,是集成的,是不可更新的,随时间而变化的,但当有了稳定的数据以只读格式保存,且不随时间改变。数据仓库是汇总的,容量大,非规范化的,元数据,数据源。
数据仓库往往有如下几点特点:

  1. 效率足够高
  2. 数据质量
  3. 扩展性
  4. 面向主题

数据湖

数据湖还有以下特点:

  • 从源系统导入所有的数据,没有数据流失。
  • 数据存储时没有经过转换或只是简单的处理。
  • 数据转换和定义schema 用于满足分析需求。

数据集市

数据集市可以理解为是一种"小型数据仓库",它只包含单个主题,且关注范围也非全局。数据集市可以分为两种:

  • 一种是独立数据集市,这类数据集市有自己的源数据库和ETL架构;
  • 另一种是非独立数据集市,这种数据集市没有自己的源系统,它的数据来自数据仓库。当用户或者应用程序不需要/不必要/不允许用到整个数据仓库的数据时,非独立数据集市就可以简单为用户提供一个数据仓库的子集。

数据集市是一个结构概念,它是企业级数据仓库的一个子集,主要面向部门级业务,并且只面向某个特定的主题。
在这里插入图片描述

数据治理

数据治理包含以下几方面内容:

  1. 确保信息利益相关者的需要评估,以达成一致的企业目标,这些企业目标需要通过对信息资源的获取和管理实现;
  2. 确保有效助力业务的决策机制和方向;
  3. 确保绩效和合规进行监督。

数据开发

离线开发,实时开发,交互式分析,图计算分析,机器学习

数据挖掘

数据挖掘是指从大量的数据中通过算法搜索隐藏于其中信息的过程。
数据挖掘过程模型:

  1. 定义问题
  2. 建立数据挖掘库
  3. 分析数据
  4. 准备数据
  5. 建立模型
  6. 评价模型
  7. 实施

ETL

数据仓库会周期不断地从源数据库提取清洗好了的数据,因此也被称为"目标系统"。ETL分别代表:

提取extraction
表示从操作型数据库搜集指定数据

转换transformation
表示将数据转化为指定格式,并进行数据清洗保证数据质量

加载load
加载过程表示将转换过后满足指定格式的数据加载进数据仓库。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

没关系的朋友

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值