HBase数仓架构

版权声明:本文为博主原创文章,遵循 CC 4.0 by-sa 版权协议,转载请附上原文出处链接和本声明。
本文链接:https://blog.csdn.net/qq_31405633/article/details/96966665

HBase数仓架构

1.整体架构

选型主要有两个,第一个是实时,实时采集利用 Maxwell,直接采集公司数据库 MySQL,将数据直接以 json 格式发送到 Kafka 集群,数仓存储选型是 HBase。

上图是实时数仓架构图,主要的存储层还是以 HBase 为主。第一层业务系统数据库在Mysql上。使用 Maxwell,其支持白名单和黑名单。业务平台的表可能有两三百个,大数据平台的计算可能只需要 100 多个,可以添加白名单,有些表的数据就可以不用过来了。这些数据通过 Json 发送到 Kafka,然后通过 Spark Streaming 去消费 Kafka,通过 JDBC 写入 HBase。(性能不低,现在我们生产上有反压机制控制,3S 一个批次可以写最大 6W 数据,批次不堆积,不会有雪崩效应。要考虑数据获取,处理,写出去,所以 3S 是一个经典经验值。)

表是通过 Phoenix SQL 语句创建,我们真正不关心底层 HBase。就像操作 MySQL 一样即可。同时会将计算结果存储到 Redis(公司实时大屏),也会将数据写入 ES 里面。中间一层就是业务开发,如 SparkStreaming、SparkSQl(现在也有 Flink),也用 Python 做分析挖掘。调度平台起先用的是 Azkaban,然后 Airflow。也用到 zeppelin,这是 Spark 交互式开发必须用到的。

接下来讲一下数据仓库,首先是模型建设,第一层是基础表,在 Phoenix 中建立与 MySQL 一样的表。在基础表的基础上构建事实表(业务事实发生的表)和维度表(如中国有多少省多少市等更新不是很大的表),依据事实表和维度表进行代开发,构建领域表,就是依据业务需求得出的结果存到领域表。

2.Maxwell

为什么选择 Maxwell 呢?

  1. 它能够使用“select * from Table”进行 bootstrapping 初始化数据,在大数据构建时可以利用 Maxwell 进行全表扫描,这句 SQL 会自动触发 Maxwell 某个线程进行数据拉取,将表的历史数据全部刷新过去。
  2. Maxwell 支持断点还原功能,大数据平台架构不光考虑到高可靠、高性能,也要保证数据零丢失,它支持 MySQL 的 binlog 文件的 pos 点记录进行数据还原,这是当初选择最重要的原因。
  3. Maxwell 将数据从 MySQL 发送到 Kafka,Kafka 是分区的,如何保证全局有序是个问题。
    它能保证这个特性,参数支持 database, table, primary key, or column 选择,
    将数据按照参数选择发送到某个分区。
    比如一条业务数据在业务系统先做 insert 再做 update 再做 delete 记录,Kafka 会将这三条 binlog 数据发送到三个分区,key 值为空,在使用 SparkStreaming 消费时可能会以 delete、update、insert 顺序,会造成数据紊乱。我们希望将这些特征数据发送到 Kafka 一个分区,而 Kafka 每个分区本身就是支持有序的。生产上,我们选择 primary key。
  4. 当业务数据的表结构需要升级,如加索引、加字段,可以通过 Maxwell 捕获到 alert 语句进行解析,同步更新到 Phoenix 表 (HBase) 中。

基于这四点主要特性需求,选择了 Maxwell,没有选择当前其他开源产品。

3.HBase

接下来讲一下为什么选择 HBase 而不选择其他大数据组件?

  1. HBase 是分布式;
  2. 随机的读和写;
  3. HBase 支持百万列。

4.Phoenix

  1. HBase 进行 put 数据,scan 查询、代码开发比较吃力,不优雅,而 Phoenix 是支持 SQL。
  2. 我们构建的表是盐表,能够解决热点问题,避免一个节点很繁忙另一个节点很闲。
  3. Phoenix 支持二级索引,由于表是盐表(分区),索引也是分区的。
  4. 支持 Spark,有效的 ETL 敏捷开发。
    基于这四点主要特性需求,选择了 Phoenix,而不用专注于底层 HBase,当成黑盒。(当然底层的 Linux、HDFS、HBase 也需要调优,稳定)

5.常规开发场景

接下来是一个经典开发案例 Kafka+Spark Streaming+Phoenix,Phoenix 可以理解为 MySQL 架包的 JDBC。我们并没有使用 Phoenix 的 Pool 池,官方也推荐使用正常 JDBC 文件,因为 JDBC 已经支持长连接,Kafka 接收过来数据是 Json 格式,将其转化为 Phoenix 的 upsert 语法和 delete 语法,完成后就将连接关闭。(这个场景是做数据实时同步。当然也可以在 foreachPartition 进行常规数据 ETL 处理,这里不过多叙述)

大数据平台是通过 bootstrapping 的全表扫描,其增量数据也是实时进入。业务代码开发首先将 client jar 包配置在 pom 文件。Phoenix+Spark 读取有好几种,选择以上写法原因有:首先其支持列裁剪,第二支持 where 条件,configuration 指的是 Spark 的 HDFS 的 conf。

业务开发是多张表,Spark+Phoenix 转成 df,接下来就和 Phoenix 和 HBase 无关。接下来就是对接 Spark 业务开发逻辑处理,最后结果集会回写到 HBase,还是通过 Phoenix 写入,使用 overwrite。HBase 没有很好地可视化工具,我们直接利用 DBeaver 工具,进行表及数据的各种建表、查询等操作来。

6.Hive数仓跟HBase数仓优劣

1.Hive

优势
  • 操作接口采用类SQL语法也就是HQL,提供快速开发的能力(简单、容易上手);
  • 避免了去写MapReduce,减少开发人员的学习成本;
  • 统一的元数据管理,可与impala/spark等共享元数据;
  • 易扩展(HDFS+MapReduce:可以扩展集群规模;支持自定义函数);
劣势
  • 对update、delete这种操作的支持性不强,需要转换成别的方式进行
  • 索引的支持性不高

2.HBase

优势
  • 随机的读和写;
  • HBase 支持百万列;
  • 对索引 二级索引的支持性好;
  • 数据的多版本;
  • 天然的幂等性;
劣势
  • 不支持SQL操作,需要借助Phoenix组件
  • 热点问题,需要开发人员自己对RK进行设计,使用Phoenix的盐表可以忽略这个问题。
  • HBase在连接时的调优跟GC的调优问题
展开阅读全文

127_CDH数仓_CM简介及架构

06-27

<p>rn <span style="color:#3D3D3D;">本教程为授权出品</span> rn</p>rn<p>rn <span style="color:#3D3D3D;"><br />rn</span> rn</p>rn<p>rn <span style="color:#3D3D3D;"><span style="color:#404040;">一、课程简介</span><br />rn<span style="color:#404040;">数据仓库(Data Warehouse,可简写为DW或DWH),是面向分析的集成化数据环境,为企业决策制定过程,提供系统数据支持的战略集合,是国内外各大公司正在重点投入的战略级技术领域。</span></span> rn</p>rn<p>rn <span style="background-color:#FFFFFF;"><br />rn</span><span style="color:#404040;">二、课程内容</span><br />rn<span style="color:#404040;">《大数据电商数仓项目实战》视频教程,从项目架构的搭建,到数据采集模块的设计、数仓架构的设计、实战需求实现、即席查询的实现,我们针对国内目前广泛使用的Apache原生框架和CDH版本框架进行了分别介绍,Apache原生框架介绍中涉及到的技术框架包括Flume、Kafka、Sqoop、MySql、HDFS、Hive、Tez、Spark、Presto、Druid等,CDH版本框架讲解包括CM的安装部署、Hadoop、Zookeeper、Hive、Flume、Kafka、Oozie、Impala、HUE、Kudu、Spark的安装配置,透彻了解不同版本框架的区别联系,将大数据全生态系统前沿技术一网打尽。在过程中对大数据生态体系进行了系统的讲解,对实际企业数仓项目中可能涉及到的技术点都进行了深入的讲解和探讨。同时穿插了大量数仓基础理论知识,让你在掌握实战经验的同时能够打下坚实的理论基础。</span> rn</p>rn<p>rn <span style="background-color:#FFFFFF;"><br />rn</span><span style="color:#404040;">三、课程目标</span><br />rn<span style="color:#404040;">本课程以国内电商巨头实际业务应用场景为依托,对电商数仓的常见实战指标以及难点实战指标进行了详尽讲解,具体指标包括:每日、周、月活跃设备明细,留存用户比例,沉默用户、回流用户、流失用户统计,最近连续3周活跃用户统计,最近7天内连续3天活跃用户统计,GMV成交总额分析,转化率及漏斗分析,品牌复购率分析、订单表拉链表的设计等,让学生拥有更直观全面的实战经验。通过对本课程的学习,对数仓项目可以建立起清晰明确的概念,系统全面的掌握各项数仓项目技术,轻松应对各种数仓难题。</span> rn</p>rn<p>rn <span style="background-color:#FFFFFF;"><br />rn</span><span style="color:#404040;">四、课程亮点</span><br />rn<span style="color:#404040;">本课程结合国内多家企业实际项目经验,特别加入了项目架构模块,从集群规模的确定到框架版本选型以及服务器选型,手把手教你从零开始搭建大数据集群。并且总结大量项目实战中会遇到的问题,针对各个技术框架,均有调优实战经验,具体包括:常用Linux运维命令、Hadoop集群调优、Flume组件选型及性能优化、Kafka集群规模确认及关键参数调优。通过这部分学习,助学生迅速成长,获取前沿技术经验,从容解决实战问题。</span> rn</p>rn<p>rn <br />rn</p>

03_数仓采集_数仓的概念

06-27

<p>rn <span style="color:#3D3D3D;">本教程为授权出品</span> rn</p>rn<p>rn <span style="color:#3D3D3D;"><br />rn</span> rn</p>rn<p>rn <span style="color:#3D3D3D;"><span style="color:#404040;">一、课程简介</span><br />rn<span style="color:#404040;">数据仓库(Data Warehouse,可简写为DW或DWH),是面向分析的集成化数据环境,为企业决策制定过程,提供系统数据支持的战略集合,是国内外各大公司正在重点投入的战略级技术领域。</span></span> rn</p>rn<p>rn <span style="background-color:#FFFFFF;"><br />rn</span><span style="color:#404040;">二、课程内容</span><br />rn<span style="color:#404040;">《大数据电商数仓项目实战》视频教程,从项目架构的搭建,到数据采集模块的设计、数仓架构的设计、实战需求实现、即席查询的实现,我们针对国内目前广泛使用的Apache原生框架和CDH版本框架进行了分别介绍,Apache原生框架介绍中涉及到的技术框架包括Flume、Kafka、Sqoop、MySql、HDFS、Hive、Tez、Spark、Presto、Druid等,CDH版本框架讲解包括CM的安装部署、Hadoop、Zookeeper、Hive、Flume、Kafka、Oozie、Impala、HUE、Kudu、Spark的安装配置,透彻了解不同版本框架的区别联系,将大数据全生态系统前沿技术一网打尽。在过程中对大数据生态体系进行了系统的讲解,对实际企业数仓项目中可能涉及到的技术点都进行了深入的讲解和探讨。同时穿插了大量数仓基础理论知识,让你在掌握实战经验的同时能够打下坚实的理论基础。</span> rn</p>rn<p>rn <span style="background-color:#FFFFFF;"><br />rn</span><span style="color:#404040;">三、课程目标</span><br />rn<span style="color:#404040;">本课程以国内电商巨头实际业务应用场景为依托,对电商数仓的常见实战指标以及难点实战指标进行了详尽讲解,具体指标包括:每日、周、月活跃设备明细,留存用户比例,沉默用户、回流用户、流失用户统计,最近连续3周活跃用户统计,最近7天内连续3天活跃用户统计,GMV成交总额分析,转化率及漏斗分析,品牌复购率分析、订单表拉链表的设计等,让学生拥有更直观全面的实战经验。通过对本课程的学习,对数仓项目可以建立起清晰明确的概念,系统全面的掌握各项数仓项目技术,轻松应对各种数仓难题。</span> rn</p>rn<p>rn <span style="background-color:#FFFFFF;"><br />rn</span><span style="color:#404040;">四、课程亮点</span><br />rn<span style="color:#404040;">本课程结合国内多家企业实际项目经验,特别加入了项目架构模块,从集群规模的确定到框架版本选型以及服务器选型,手把手教你从零开始搭建大数据集群。并且总结大量项目实战中会遇到的问题,针对各个技术框架,均有调优实战经验,具体包括:常用Linux运维命令、Hadoop集群调优、Flume组件选型及性能优化、Kafka集群规模确认及关键参数调优。通过这部分学习,助学生迅速成长,获取前沿技术经验,从容解决实战问题。</span> rn</p>rn<p>rn <br />rn</p>

138_CDH数仓_业务数仓完结

06-27

<p>rn <span style="color:#3D3D3D;">本教程为授权出品</span> rn</p>rn<p>rn <span style="color:#3D3D3D;"><br />rn</span> rn</p>rn<p>rn <span style="color:#3D3D3D;"><span style="color:#404040;">一、课程简介</span><br />rn<span style="color:#404040;">数据仓库(Data Warehouse,可简写为DW或DWH),是面向分析的集成化数据环境,为企业决策制定过程,提供系统数据支持的战略集合,是国内外各大公司正在重点投入的战略级技术领域。</span></span> rn</p>rn<p>rn <span style="background-color:#FFFFFF;"><br />rn</span><span style="color:#404040;">二、课程内容</span><br />rn<span style="color:#404040;">《大数据电商数仓项目实战》视频教程,从项目架构的搭建,到数据采集模块的设计、数仓架构的设计、实战需求实现、即席查询的实现,我们针对国内目前广泛使用的Apache原生框架和CDH版本框架进行了分别介绍,Apache原生框架介绍中涉及到的技术框架包括Flume、Kafka、Sqoop、MySql、HDFS、Hive、Tez、Spark、Presto、Druid等,CDH版本框架讲解包括CM的安装部署、Hadoop、Zookeeper、Hive、Flume、Kafka、Oozie、Impala、HUE、Kudu、Spark的安装配置,透彻了解不同版本框架的区别联系,将大数据全生态系统前沿技术一网打尽。在过程中对大数据生态体系进行了系统的讲解,对实际企业数仓项目中可能涉及到的技术点都进行了深入的讲解和探讨。同时穿插了大量数仓基础理论知识,让你在掌握实战经验的同时能够打下坚实的理论基础。</span> rn</p>rn<p>rn <span style="background-color:#FFFFFF;"><br />rn</span><span style="color:#404040;">三、课程目标</span><br />rn<span style="color:#404040;">本课程以国内电商巨头实际业务应用场景为依托,对电商数仓的常见实战指标以及难点实战指标进行了详尽讲解,具体指标包括:每日、周、月活跃设备明细,留存用户比例,沉默用户、回流用户、流失用户统计,最近连续3周活跃用户统计,最近7天内连续3天活跃用户统计,GMV成交总额分析,转化率及漏斗分析,品牌复购率分析、订单表拉链表的设计等,让学生拥有更直观全面的实战经验。通过对本课程的学习,对数仓项目可以建立起清晰明确的概念,系统全面的掌握各项数仓项目技术,轻松应对各种数仓难题。</span> rn</p>rn<p>rn <span style="background-color:#FFFFFF;"><br />rn</span><span style="color:#404040;">四、课程亮点</span><br />rn<span style="color:#404040;">本课程结合国内多家企业实际项目经验,特别加入了项目架构模块,从集群规模的确定到框架版本选型以及服务器选型,手把手教你从零开始搭建大数据集群。并且总结大量项目实战中会遇到的问题,针对各个技术框架,均有调优实战经验,具体包括:常用Linux运维命令、Hadoop集群调优、Flume组件选型及性能优化、Kafka集群规模确认及关键参数调优。通过这部分学习,助学生迅速成长,获取前沿技术经验,从容解决实战问题。</span> rn</p>rn<p>rn <br />rn</p>

数仓分层

06-22

一、课程简介<br />rn<br />rn随着技术的飞速发展,经过多年的数据积累,各互联网公司已保存了海量的原始数据和各种业务数据,所以数据仓库技术是各大公司目前都需要着重发展投入的技术领域。数据仓库是面向分析的集成化数据环境,为企业所有决策制定过程,提供系统数据支持的战略集合。通过对数据仓库中数据的分析,可以帮助企业改进业务流程、控制成本、提高产品质量等。<br />rn<br />rn二、课程内容<br />rn<br />rn本次精心打造的数仓项目的课程,从项目架构的搭建,到数据采集模块的设计、数仓架构的设计、实战需求实现、即席查询的实现,我们针对国内目前广泛使用的Apache原生框架和CDH版本框架进行了分别介绍,Apache原生框架介绍中涉及到的技术框架包括Flume、Kafka、Sqoop、MySql、HDFS、Hive、Tez、Spark、Presto、Druid等,CDH版本框架讲解包括CM的安装部署、Hadoop、Zookeeper、Hive、Flume、Kafka、Oozie、Impala、HUE、Kudu、Spark的安装配置,透彻了解不同版本框架的区别联系,将大数据全生态系统前沿技术一网打尽。在过程中对大数据生态体系进行了系统的讲解,对实际企业数仓项目中可能涉及到的技术点都进行了深入的讲解和探讨。同时穿插了大量数仓基础理论知识,让你在掌握实战经验的同时能够打下坚实的理论基础。<br />rn<br />rn<br />rn三、课程目标<br />rn<br />rn本课程以国内电商巨头实际业务应用场景为依托,对电商数仓的常见实战指标以及难点实战指标进行了详尽讲解,具体指标包括:每日、周、月活跃设备明细,留存用户比例,沉默用户、回流用户、流失用户统计,最近连续3周活跃用户统计,最近7天内连续3天活跃用户统计,GMV成交总额分析,转化率及漏斗分析,品牌复购率分析、订单表拉链表的设计等,让学生拥有更直观全面的实战经验。通过对本课程的学习,对数仓项目可以建立起清晰明确的概念,系统全面的掌握各项数仓项目技术,轻松应对各种数仓难题。<br />rn<br />rn四、课程亮点<br />rn本课程结合国内多家企业实际项目经验,特别加入了项目架构模块,从集群规模的确定到框架版本选型以及服务器选型,手把手教你从零开始搭建大数据集群。并且总结大量项目实战中会遇到的问题,针对各个技术框架,均有调优实战经验,具体包括:常用Linux运维命令、Hadoop集群调优、Flume组件选型及性能优化、Kafka集群规模确认及关键参数调优。通过这部分学习,助学生迅速成长,获取前沿技术经验,从容解决实战问题。<br />rn<br />rn<br />rn<div>rn <br />rn</div>

113_业务数仓_即席数仓课程介绍

06-27

<p>rn <span style="color:#3D3D3D;">本教程为授权出品</span> rn</p>rn<p>rn <span style="color:#3D3D3D;"><br />rn</span> rn</p>rn<p>rn <span style="color:#3D3D3D;"><span style="color:#404040;">一、课程简介</span><br />rn<span style="color:#404040;">数据仓库(Data Warehouse,可简写为DW或DWH),是面向分析的集成化数据环境,为企业决策制定过程,提供系统数据支持的战略集合,是国内外各大公司正在重点投入的战略级技术领域。</span></span> rn</p>rn<p>rn <span style="background-color:#FFFFFF;"><br />rn</span><span style="color:#404040;">二、课程内容</span><br />rn<span style="color:#404040;">《大数据电商数仓项目实战》视频教程,从项目架构的搭建,到数据采集模块的设计、数仓架构的设计、实战需求实现、即席查询的实现,我们针对国内目前广泛使用的Apache原生框架和CDH版本框架进行了分别介绍,Apache原生框架介绍中涉及到的技术框架包括Flume、Kafka、Sqoop、MySql、HDFS、Hive、Tez、Spark、Presto、Druid等,CDH版本框架讲解包括CM的安装部署、Hadoop、Zookeeper、Hive、Flume、Kafka、Oozie、Impala、HUE、Kudu、Spark的安装配置,透彻了解不同版本框架的区别联系,将大数据全生态系统前沿技术一网打尽。在过程中对大数据生态体系进行了系统的讲解,对实际企业数仓项目中可能涉及到的技术点都进行了深入的讲解和探讨。同时穿插了大量数仓基础理论知识,让你在掌握实战经验的同时能够打下坚实的理论基础。</span> rn</p>rn<p>rn <span style="background-color:#FFFFFF;"><br />rn</span><span style="color:#404040;">三、课程目标</span><br />rn<span style="color:#404040;">本课程以国内电商巨头实际业务应用场景为依托,对电商数仓的常见实战指标以及难点实战指标进行了详尽讲解,具体指标包括:每日、周、月活跃设备明细,留存用户比例,沉默用户、回流用户、流失用户统计,最近连续3周活跃用户统计,最近7天内连续3天活跃用户统计,GMV成交总额分析,转化率及漏斗分析,品牌复购率分析、订单表拉链表的设计等,让学生拥有更直观全面的实战经验。通过对本课程的学习,对数仓项目可以建立起清晰明确的概念,系统全面的掌握各项数仓项目技术,轻松应对各种数仓难题。</span> rn</p>rn<p>rn <span style="background-color:#FFFFFF;"><br />rn</span><span style="color:#404040;">四、课程亮点</span><br />rn<span style="color:#404040;">本课程结合国内多家企业实际项目经验,特别加入了项目架构模块,从集群规模的确定到框架版本选型以及服务器选型,手把手教你从零开始搭建大数据集群。并且总结大量项目实战中会遇到的问题,针对各个技术框架,均有调优实战经验,具体包括:常用Linux运维命令、Hadoop集群调优、Flume组件选型及性能优化、Kafka集群规模确认及关键参数调优。通过这部分学习,助学生迅速成长,获取前沿技术经验,从容解决实战问题。</span> rn</p>rn<p>rn <br />rn</p>

141_CDH数仓_即席查询数仓搭建Impala

06-27

<p>rn <span style="color:#3D3D3D;">本教程为授权出品</span> rn</p>rn<p>rn <span style="color:#3D3D3D;"><br />rn</span> rn</p>rn<p>rn <span style="color:#3D3D3D;"><span style="color:#404040;">一、课程简介</span><br />rn<span style="color:#404040;">数据仓库(Data Warehouse,可简写为DW或DWH),是面向分析的集成化数据环境,为企业决策制定过程,提供系统数据支持的战略集合,是国内外各大公司正在重点投入的战略级技术领域。</span></span> rn</p>rn<p>rn <span style="background-color:#FFFFFF;"><br />rn</span><span style="color:#404040;">二、课程内容</span><br />rn<span style="color:#404040;">《大数据电商数仓项目实战》视频教程,从项目架构的搭建,到数据采集模块的设计、数仓架构的设计、实战需求实现、即席查询的实现,我们针对国内目前广泛使用的Apache原生框架和CDH版本框架进行了分别介绍,Apache原生框架介绍中涉及到的技术框架包括Flume、Kafka、Sqoop、MySql、HDFS、Hive、Tez、Spark、Presto、Druid等,CDH版本框架讲解包括CM的安装部署、Hadoop、Zookeeper、Hive、Flume、Kafka、Oozie、Impala、HUE、Kudu、Spark的安装配置,透彻了解不同版本框架的区别联系,将大数据全生态系统前沿技术一网打尽。在过程中对大数据生态体系进行了系统的讲解,对实际企业数仓项目中可能涉及到的技术点都进行了深入的讲解和探讨。同时穿插了大量数仓基础理论知识,让你在掌握实战经验的同时能够打下坚实的理论基础。</span> rn</p>rn<p>rn <span style="background-color:#FFFFFF;"><br />rn</span><span style="color:#404040;">三、课程目标</span><br />rn<span style="color:#404040;">本课程以国内电商巨头实际业务应用场景为依托,对电商数仓的常见实战指标以及难点实战指标进行了详尽讲解,具体指标包括:每日、周、月活跃设备明细,留存用户比例,沉默用户、回流用户、流失用户统计,最近连续3周活跃用户统计,最近7天内连续3天活跃用户统计,GMV成交总额分析,转化率及漏斗分析,品牌复购率分析、订单表拉链表的设计等,让学生拥有更直观全面的实战经验。通过对本课程的学习,对数仓项目可以建立起清晰明确的概念,系统全面的掌握各项数仓项目技术,轻松应对各种数仓难题。</span> rn</p>rn<p>rn <span style="background-color:#FFFFFF;"><br />rn</span><span style="color:#404040;">四、课程亮点</span><br />rn<span style="color:#404040;">本课程结合国内多家企业实际项目经验,特别加入了项目架构模块,从集群规模的确定到框架版本选型以及服务器选型,手把手教你从零开始搭建大数据集群。并且总结大量项目实战中会遇到的问题,针对各个技术框架,均有调优实战经验,具体包括:常用Linux运维命令、Hadoop集群调优、Flume组件选型及性能优化、Kafka集群规模确认及关键参数调优。通过这部分学习,助学生迅速成长,获取前沿技术经验,从容解决实战问题。</span> rn</p>rn<p>rn <br />rn</p>

数仓的概念

06-22

一、课程简介<br />rn<br />rn随着技术的飞速发展,经过多年的数据积累,各互联网公司已保存了海量的原始数据和各种业务数据,所以数据仓库技术是各大公司目前都需要着重发展投入的技术领域。数据仓库是面向分析的集成化数据环境,为企业所有决策制定过程,提供系统数据支持的战略集合。通过对数据仓库中数据的分析,可以帮助企业改进业务流程、控制成本、提高产品质量等。<br />rn<br />rn二、课程内容<br />rn<br />rn本次精心打造的数仓项目的课程,从项目架构的搭建,到数据采集模块的设计、数仓架构的设计、实战需求实现、即席查询的实现,我们针对国内目前广泛使用的Apache原生框架和CDH版本框架进行了分别介绍,Apache原生框架介绍中涉及到的技术框架包括Flume、Kafka、Sqoop、MySql、HDFS、Hive、Tez、Spark、Presto、Druid等,CDH版本框架讲解包括CM的安装部署、Hadoop、Zookeeper、Hive、Flume、Kafka、Oozie、Impala、HUE、Kudu、Spark的安装配置,透彻了解不同版本框架的区别联系,将大数据全生态系统前沿技术一网打尽。在过程中对大数据生态体系进行了系统的讲解,对实际企业数仓项目中可能涉及到的技术点都进行了深入的讲解和探讨。同时穿插了大量数仓基础理论知识,让你在掌握实战经验的同时能够打下坚实的理论基础。<br />rn<br />rn<br />rn三、课程目标<br />rn<br />rn本课程以国内电商巨头实际业务应用场景为依托,对电商数仓的常见实战指标以及难点实战指标进行了详尽讲解,具体指标包括:每日、周、月活跃设备明细,留存用户比例,沉默用户、回流用户、流失用户统计,最近连续3周活跃用户统计,最近7天内连续3天活跃用户统计,GMV成交总额分析,转化率及漏斗分析,品牌复购率分析、订单表拉链表的设计等,让学生拥有更直观全面的实战经验。通过对本课程的学习,对数仓项目可以建立起清晰明确的概念,系统全面的掌握各项数仓项目技术,轻松应对各种数仓难题。<br />rn<br />rn四、课程亮点<br />rn本课程结合国内多家企业实际项目经验,特别加入了项目架构模块,从集群规模的确定到框架版本选型以及服务器选型,手把手教你从零开始搭建大数据集群。并且总结大量项目实战中会遇到的问题,针对各个技术框架,均有调优实战经验,具体包括:常用Linux运维命令、Hadoop集群调优、Flume组件选型及性能优化、Kafka集群规模确认及关键参数调优。通过这部分学习,助学生迅速成长,获取前沿技术经验,从容解决实战问题。<br />rn<br />rn<br />rn<div>rn <br />rn</div>

没有更多推荐了,返回首页