数据仓库学习笔记1


主要为学习《基于Hadoop生态圈的数据仓库实践 》专栏的笔记

专栏参照 点击打开链接


操作型系统:面向过程、事务处理

分析型系统:面向主题、分析式


操作型系统里面的数据------》ETL(抽取(extract)、转换(transform)和装载(load)

-----------》获取数据(精确性、时效性、历史追溯性)


建模方法:

规范化数据模型:满足3NF,用于企业级数据仓库建模

多维数据模型:按照事实表、维度表来构建数据仓库或数据集市。

       |||||

       V

  星型和雪花型  (具体例子和比较参见点击打开链接

星型存在一定冗余,雪花型无冗余

雪花模型在维度表、事实表之间的连接很多,因此性能方面会比较低

雪花模型ETL较复杂,不能并行化,星型反之

总之,雪花模型使得维度分析更加容易,比如“针对特定的广告主,有哪些客户或者公司是在线的?”星形模型用来做指标分析更适合,比如“给定的一个客户他们的收入是多少?”




大数据4V特性:Volume —— 数据量大、Velocity —— 处理速度快、Variety —— 数据源多样、Veracity —— 真实性

分布式计算

Hadoop组件:

HDFS —— hadoop分布式文件系统;YARN —— 一个资源调度框架;MapReduce —— 一个分布式处理框架

》HDFS:

Hadoop分布式文件系统负责在集群中的节点或计算机中分散存放数据。如下图所示,把数据上传到HDFS上时,系统会自动做三件事情:

把文件分成数据块。
把数据块分散到HDFS集群中的多台计算机中。
每个数据块被复制成多个块拷贝,块拷贝存在于不同的机器上。

》mapReduce

主要思想是,将数据Map为一个键值对的集合,然后对所有键值对按照相同键值进行Reduce

再次考虑在10TB的web日志中计算‘ERROR’的个数。

在map阶段,识别出每个以‘ERROR’开头的行并输出键值对<ERROR, 1>。在reduce阶段我们只需要对map阶段生成的<ERROR, 1>对进行计数。

<<Hadoop MapReduce:分为split、map、shuffle和reduce四步

HDFS分布数据。
向YARN请求资源以建立mapper实例。
在可用的节点上建立mapper实例。
对mappers的输出进行混洗,确保一个键对应的所有值都分配给相同的reducer。
向YARN请求资源以建立reducer实例。
在可用的节点上建立reducer实例。


》YARN

YARN是Hadoop最新的资源管理系统。资源管理系统负责多个应用程序的多个作业可以同时运行。例如,在一个集群中一些用户可能提交MapReduce作业查询,另一些用户可能提交Spark 作业查询。资源管理的角色就是要保证两种计算框架都能获得所需的资源,并且如果多人同时提交查询,保证这些查询以合理的方式获得服务。


Hadoop 生态圈的分布式计算思想

1、使用通用硬件

2、向外扩展而不是向上扩展

3、容错

4、将代码向数据移动


与传统数据仓库架构对应的Hadoop生态圈工具

数据摄取工具 Sqoop

装载和转换数据 Hive

过程管理工具 Falcon

数据目录工具 Hcatalog

SQL查询引擎 Apache Hive(支持Tez、MapReduce和Spark计算框架,不支持Storm)

                      SparkSQL、Impala(是Cloudera公司的查询系统,速度快,主要用于OLAP)

数据可视化工具 Hue(支持Hive、Impala)、Zeppelin(支持SparkSQL)

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
提供的源码资源涵盖了安卓应用、小程序、Python应用和Java应用等多个领域,每个领域都包含了丰富的实例和项目。这些源码都是基于各自平台的最新技术和标准编写,确保了在对应环境下能够无缝运行。同时,源码中配备了详细的注释和文档,帮助用户快速理解代码结构和实现逻辑。 适用人群: 这些源码资源特别适合大学生群体。无论你是计算机相关专业的学生,还是对其他领域编程感兴趣的学生,这些资源都能为你提供宝贵的学习和实践机会。通过学习和运行这些源码,你可以掌握各平台开发的基础知识,提升编程能力和项目实战经验。 使用场景及目标: 在学习阶段,你可以利用这些源码资源进行课程实践、课外项目或毕业设计。通过分析和运行源码,你将深入了解各平台开发的技术细节和最佳实践,逐步培养起自己的项目开发和问题解决能力。此外,在求职或创业过程中,具备跨平台开发能力的大学生将更具竞争力。 其他说明: 为了确保源码资源的可运行性和易用性,特别注意了以下几点:首先,每份源码都提供了详细的运行环境和依赖说明,确保用户能够轻松搭建起开发环境;其次,源码中的注释和文档都非常完善,方便用户快速上手和理解代码;最后,我会定期更新这些源码资源,以适应各平台技术的最新发展和市场需求。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值