Hive+Spark离线数仓工业项目实战--环境构建(3)

20 篇文章 1 订阅
20 篇文章 2 订阅

项目环境配置

根据需求实现项目环境配置

实施

  - 注意:所有软件Docker、Hadoop、Hive、Spark、Sqoop都已经装好,不需要额外安装配置,启动即可

配置网络:如果你的VM Nat网络不是88网段,请按照以下修改

    - 修改Linux虚拟机的ens33网卡,网卡和网关,修改为自己的网段

  配置映射

项目环境测试:Oracle

实现项目Oracle环境的测试

实施

 - 远程连接:DG

    - step1:安装DG

    - step2:创建连接

      - SID:helowin
    - 用户名:ciss
      - 密码:123456
  
   
  
    
  
 
    
   step3:配置驱动包

  
  
  
  step4:配置JDK
  

   step5:测试
  

- 关闭
  

项目环境测试:MySQL

实现项目MySQL环境的测试

实施

  - 大数据平台中自己管理的MySQL:两台机器

    - 存储软件元数据:Hive、Sqoop、Airflow、Oozie、Hue
    - 存储统计分析结果

  - 注意:MySQL没有使用Docker容器部署,直接部署在当前node1宿主机器上

  - 启动/关闭:默认开启自启动

  - 连接:使用命令行客户端、Navicat、DG都可以

    - 用户名:root
    - 密码:123456

  

 

 查看

项目环境测试:Hadoop

目标:实现项目Hadoop环境的测试

实施

 

 node1:8088

node1:19888

 

项目环境测试:Hive

目标:实现项目Hive环境的测试

实施

    - Shuffle【分区、排序、分组】三种场景
    - 重分区:repartition:分区个数由小变大
        - 调用分区器对所有数据进行重新分区
        - rdd1
          - part0:1 2 3 
          - part1: 4 5 6 
        - rdd2:调用分区器【只有shuffle阶段才能调用分区器】
          - part0:0 6
          - part1:1  4 
          - part2:2  5
      - 全局排序:sortBy
        - part0:1 2 5
        - part1: 4  3 6 
        - 方案:将所有数据放入磁盘
        - 实现:对数据做了范围分区:将所有数据做了采样:4
          - part0:6  5  4 
          - part1:3 2 1
      - 全局分组:groupBy,reduceByKey

  - 关闭Hive容器

项目环境测试:Spark

目标:实现项目Spark环境的测试

实施

项目环境测试:Sqoop

目标:实现项目Sqoop环境的测试

实施

  - 实现项目Sqoop环境的测试

## 要求

1. Python面向对象

   - 类和对象
   - 方法

2. Hive中建表语法

   ```
   create [external] table tbname(
       字段 类型 comment,
   ) 
   comment
   partitioned by 
   clustered by col into N buckets
   row format 
   stored as textfile
   location
   ```

  • 0
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
数据分析职业是一个多金的职业,数据分析职位是一个金饭碗的职位,前景美好,但是要全面掌握大数据分析技术,非常困难,大部分学员的痛点是不能快速找到入门要点,精准快速上手。本课程采用项目驱动的方式,以Spark3和Clickhouse技术为突破口,带领学员快速入门Spark3+Clickhouse数据分析,促使学员成为一名高效且优秀的大数据分析人才。学员通过本课程的学习,不仅可以掌握使用Python3进行Spark3数据分析,还会掌握利用Scala/java进行Spark数据分析,多语言并进,力求全面掌握;另外通过项目驱动,掌握Spark框架的精髓,教导Spark源码查看的技巧;会学到Spark性能优化的核心要点,成为企业急缺的数据分析人才;更会通过Clickhouse和Spark搭建OLAP引擎,使学员对大数据生态圈有一个更加全面的认识和能力的综合提升。真实的数据分析项目,学完即可拿来作为自己的项目经验,增加面试谈薪筹码。课程涉及内容:Ø  Spark内核原理(RDD、DataFrame、Dataset、Structed Stream、SparkML、SparkSQL)Ø  Spark离线数据分析(千万简历数据分析、雪花模型离线数仓构建)Ø  Spark特征处理及模型预测Ø  Spark实时数据分析(Structed Stream)原理及实战Ø  Spark+Hive构建离线数据仓库(数仓概念ODS/DWD/DWS/ADS)Ø  Clickhouse核心原理及实战Ø  Clickhouse engine详解Ø  Spark向Clickhouse导入简历数据,进行数据聚合分析Ø  catboost训练房价预测机器学习模型Ø  基于Clickhouse构建机器学习模型利用SQL进行房价预测Ø  Clickhouse集群监控,Nginx反向代理Grafana+Prometheus+Clickhouse+node_exporterØ  Spark性能优化Ø  Spark工程师面试宝典       课程组件:集群监控:福利:本课程凡是消费满359的学员,一律送出价值109元的实体书籍.
### 回答1: flume+spark+hive+spark sql离线分析系统是一种基于大数据技术的离线数据分析系统。其中,flume用于数据采集和传输,spark用于数据处理和计算,hive用于数据存储和管理,spark sql用于数据查询和分析。通过这个系统,可以实现对大量数据的高效处理和分析,为企业决策提供有力的支持。 ### 回答2: flume spark hive spark sql离线分析系统是一种数据处理系统。该系统可以用于处理大量的数据,生成相应的报告和分析。博客文章有详细讨论。 flume是一个分布式日志采集系统,它可以将数据从不同的地方采集并传输到所需的位置。它可以采集不同的日志数据,包括web日志、服务器日志、应用程序日志等。flume是一个可扩展的系统,可以用于处理大量的数据。 spark是一个强大的分布式计算引擎,它允许用户在大规模的数据集上进行高性能计算。spark可以快速地处理大量的数据,并支持多种编程语言,例如Java、Python和Scala等。spark还提供了可视化编程工具,例如RDD(弹性分布式数据集)来支持数据处理和分析等任务。 hive是一个基于Hadoop的数据仓库系统,它可以将结构化的数据存储在Hadoop的HDFS文件系统中。hive提供了类SQL的查询语言,例如HQL,并支持复杂查询和数据分析任务。hive还提供了很多插件,使用户可以轻松地将数据导入和导出到不同的数据源中。 spark sql是spark的一部分,它提供了SQL查询和数据分析功能。spark sql的灵活性和可扩展性使其非常适合处理大数据量的数据,包括结构化数据和半结构化数据。 综上所述,flume spark hive spark sql离线分析系统是一个可以用于处理大量的数据的系统,它由flume、sparkhive以及spark sql等组成部分。该系统可以帮助用户轻松地采集、存储、分析和报告大量的数据,有着非常广泛的应用。 ### 回答3: Flume、SparkHiveSpark SQL四个工具都是用于离线分析系统的。 Flume是由Apache基金会开发的开源数据采集系统,用于收集、聚合和移动大量数据。Flume可以实现数据的采集、压缩、持久化和转发,从而实现数据流水线。Flume可以将数据从不同来源收集到不同的目标,支持多种数据源,包括文件、HTTP、数据库等。Flume可以使数据收集更加高效和可靠。 Spark是一种快速、通用的计算引擎,用于大规模数据处理。Spark支持分布式计算,可以在数百台计算机上并行运行。Spark是用Java、Scala或Python编写的,可以处理数据,并提供先进的机器学习和图形处理功能。Spark具有内存计算和多种处理任务的灵活性,可以用于各种大规模数据处理的场景中。 Hive是面向Hadoop的数据仓库软件,提供了一个类似SQL的查询语言,用于查询和分析大规模数据。Hive将数据以表格的形式组织和存储,并通过SQL语言进行查询和分析。Hive可以用于各种数据仓库的管理,包括文件、HDFS、HBase等。 Spark SQL是在Spark引擎之上构建的结构化数据处理系统,提供了一种基于SQL的编程接口。Spark SQL可以将结构化数据与RDD集成在一起,可以使用Spark的内存计算引擎和流式处理引擎进行大规模的数据分析。Spark SQL可以在SQL查询中使用自己的数据格式,从而实现高效的数据处理和分析。 综上所述,Flume、SparkHiveSpark SQL这四个工具是离线分析系统中的重要组成部分,可以实现数据采集、数据处理和数据分析。在大数据分析的过程中,这些工具为数据科学家提供了丰富的选项,从而可以更好地处理数据,加快分析速度并获得更深入的见解。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值