黑马Hive+Spark离线数仓工业项目--数仓维度层DWS层构建(2)

20 篇文章 2 订阅
20 篇文章 1 订阅

日期时间维度设计

目标:掌握日期时间维度的需求与设计

路径

  - step1:需求
  - step2:设计

实施

需求:构建日期时间维度表,得到所有年、季度、月、周、日的维度信息

 统计不同时间维度下的呼叫次数、工单数、维修数、安装数、报销金额、核销数等

设计

    - 数据来源:提前通过程序生成构建,不是从数据中抽取


    
    - 执行周期:每一年生成下一年的每一天的维度信息,**增量**同步到维度表的分区中

日期时间维度构建

目标:实现日期时间维度表的构建

实施

  建维度表

加载数据

服务网点维度设计

目标:掌握服务网点维度的需求与设计

路径

  - step1:需求
  - step2:设计

实施

需求:构建服务网点维度表,得到服务网点id、网点名称、网点所属的地理区域、服务网点状态等

 统计不同服务网点的服务人员数、工单数、核销数等

  设计

数据来源

      - ciss_base_servicestation:服务网点信息表

      - eos_dict_type:字典状态类别表,记录所有需要使用字典标记的表


    
    - eos_dict_entry:字典状态明细表,记录所有具体的状态或者类别信息

      - ciss_base_areas:行政地区信息表

        - 通过具体的id关联所有地区信息

    实现设计


    

服务网点维度构建

目标:实现服务网点维度的构建

实施

  建维度表

 加载数据


   

  • cross join:笛卡尔积,join时候不给关联条件

    • select * from A,B

    • select * from A join B

    • cross join   

 查看结果

 

油站维度设计

目标:掌握油站维度的需求与设计

路径

  - step1:需求
  - step2:设计

实施

需求:构建油站维度表,得到油站id、油站名称、油站所属的地理区域、所属公司、油站状态等

设计

数据来源

ciss_base_oilstation:油站信息表

      - eos_dict_type:字典状态类别表,记录所有需要使用字典标记的表

   - eos_dict_entry:字典状态明细表,记录所有具体的状态或者类别信息

      - ciss_base_baseinfo:客户公司信息表【公司ID、公司名称】

        - 数据有重复,做个去重

      - ciss_base_customer:客户信息表【客户id、客户省份名称、所属公司ID】

      - ciss_base_areas:行政地区信息表

        - 通过具体的id关联所有地区信息

          实现设计 

      - 所有表按照对应字段关联,获取对应的属性字段

      油站维度构建

目标:实现油站维度的构建

实施

建维度表

 抽取数据

  - 查看结果

其他维度:组织机构

目标:实现组织机构维度的设计及构建

路径

  - step1:需求
  - step2:设计
  - step3:实现

实施

  需求:实现组织机构维度表的构建,得到每个工程师对应的组织机构信息

- 统计不同服务人员的工单数、核销数等

设计

 
​    

实现

    建维度表

抽取数据 

其他维度:仓库、物流

目标:实现仓库维度、物流维度的构建

路径

  - step1:仓库维度
  - step2:物流维度

实施

  仓库维度

    - 建表

加载

物流维度

    - 建表

加载 

  附录一:常见问题

1.错误:没有开启Cross Join

Spark2.x默认不允许执行笛卡尔积,除非**显示申明cross join**或者开启属性:`spark.sql.crossJoin.enabled  true`

2.错误:Unable to move source

 

- 重启SparkSQL的ThriftServer,与MetaStore构建新的会话连接

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
数据分析职业是一个多金的职业,数据分析职位是一个金饭碗的职位,前景美好,但是要全面掌握大数据分析技术,非常困难,大部分学员的痛点是不能快速找到入门要点,精准快速上手。本课程采用项目驱动的方式,以Spark3和Clickhouse技术为突破口,带领学员快速入门Spark3+Clickhouse数据分析,促使学员成为一名高效且优秀的大数据分析人才。学员通过本课程的学习,不仅可以掌握使用Python3进行Spark3数据分析,还会掌握利用Scala/java进行Spark数据分析,多语言并进,力求全面掌握;另外通过项目驱动,掌握Spark框架的精髓,教导Spark源码查看的技巧;会学到Spark性能优化的核心要点,成为企业急缺的数据分析人才;更会通过Clickhouse和Spark搭建OLAP引擎,使学员对大数据生态圈有一个更加全面的认识和能力的综合提升。真实的数据分析项目,学完即可拿来作为自己的项目经验,增加面试谈薪筹码。课程涉及内容:Ø  Spark内核原理(RDD、DataFrame、Dataset、Structed Stream、SparkML、SparkSQL)Ø  Spark离线数据分析(千万简历数据分析、雪花模型离线数仓构建)Ø  Spark特征处理及模型预测Ø  Spark实时数据分析(Structed Stream)原理及实战Ø  Spark+Hive构建离线数据仓库(数仓概念ODS/DWD/DWS/ADS)Ø  Clickhouse核心原理及实战Ø  Clickhouse engine详解Ø  Spark向Clickhouse导入简历数据,进行数据聚合分析Ø  catboost训练房价预测机器学习模型Ø  基于Clickhouse构建机器学习模型利用SQL进行房价预测Ø  Clickhouse集群监控,Nginx反向代理Grafana+Prometheus+Clickhouse+node_exporterØ  Spark性能优化Ø  Spark工程师面试宝典       课程组件:集群监控:福利:本课程凡是消费满359的学员,一律送出价值109元的实体书籍.
### 回答1: flume+spark+hive+spark sql离线分析系统是一种基于大数据技术的离线数据分析系统。其中,flume用于数据采集和传输,spark用于数据处理和计算,hive用于数据存储和管理,spark sql用于数据查询和分析。通过这个系统,可以实现对大量数据的高效处理和分析,为企业决策提供有力的支持。 ### 回答2: flume spark hive spark sql离线分析系统是一种数据处理系统。该系统可以用于处理大量的数据,生成相应的报告和分析。博客文章有详细讨论。 flume是一个分布式日志采集系统,它可以将数据从不同的地方采集并传输到所需的位置。它可以采集不同的日志数据,包括web日志、服务器日志、应用程序日志等。flume是一个可扩展的系统,可以用于处理大量的数据。 spark是一个强大的分布式计算引擎,它允许用户在大规模的数据集上进行高性能计算。spark可以快速地处理大量的数据,并支持多种编程语言,例如Java、Python和Scala等。spark还提供了可视化编程工具,例如RDD(弹性分布式数据集)来支持数据处理和分析等任务。 hive是一个基于Hadoop的数据仓库系统,它可以将结构化的数据存储在Hadoop的HDFS文件系统中。hive提供了类SQL的查询语言,例如HQL,并支持复杂查询和数据分析任务。hive还提供了很多插件,使用户可以轻松地将数据导入和导出到不同的数据源中。 spark sql是spark的一部分,它提供了SQL查询和数据分析功能。spark sql的灵活性和可扩展性使其非常适合处理大数据量的数据,包括结构化数据和半结构化数据。 综上所述,flume spark hive spark sql离线分析系统是一个可以用于处理大量的数据的系统,它由flume、sparkhive以及spark sql等组成部分。该系统可以帮助用户轻松地采集、存储、分析和报告大量的数据,有着非常广泛的应用。 ### 回答3: Flume、SparkHiveSpark SQL四个工具都是用于离线分析系统的。 Flume是由Apache基金会开发的开源数据采集系统,用于收集、聚合和移动大量数据。Flume可以实现数据的采集、压缩、持久化和转发,从而实现数据流水线。Flume可以将数据从不同来源收集到不同的目标,支持多种数据源,包括文件、HTTP、数据库等。Flume可以使数据收集更加高效和可靠。 Spark是一种快速、通用的计算引擎,用于大规模数据处理。Spark支持分布式计算,可以在数百台计算机上并行运行。Spark是用Java、Scala或Python编写的,可以处理数据,并提供先进的机器学习和图形处理功能。Spark具有内存计算和多种处理任务的灵活性,可以用于各种大规模数据处理的场景中。 Hive是面向Hadoop的数据仓库软件,提供了一个类似SQL的查询语言,用于查询和分析大规模数据。Hive将数据以表格的形式组织和存储,并通过SQL语言进行查询和分析。Hive可以用于各种数据仓库的管理,包括文件、HDFS、HBase等。 Spark SQL是在Spark引擎之上构建的结构化数据处理系统,提供了一种基于SQL的编程接口。Spark SQL可以将结构化数据与RDD集成在一起,可以使用Spark的内存计算引擎和流式处理引擎进行大规模的数据分析。Spark SQL可以在SQL查询中使用自己的数据格式,从而实现高效的数据处理和分析。 综上所述,Flume、SparkHiveSpark SQL这四个工具是离线分析系统中的重要组成部分,可以实现数据采集、数据处理和数据分析。在大数据分析的过程中,这些工具为数据科学家提供了丰富的选项,从而可以更好地处理数据,加快分析速度并获得更深入的见解。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值