【CDH数仓】Day01：概念、环境搭建、CDH数仓搭建、用户行为数仓搭建

最新推荐文章于 2023-05-12 11:14:23 发布

哥们要飞

最新推荐文章于 2023-05-12 11:14:23 发布

阅读量448

点赞数

文章标签： hadoop 大数据 hdfs mysql 分布式

本文链接：https://blog.csdn.net/USTSD/article/details/125518514

版权

一、数仓之Cloudera Manager

1、CM简介

拥有集群自动化安装、中心化管理、集群监控、报警功能的一个工具

快速安装，快速运维，提高集群的效率

CM架构

2、阿里云服务器准备

注册账号

购买ECS云服务器

ECS配置及安全组修改(开放各服务的端口)

3、CM部署准备

服务器连接

修改hosts文件

通过生成公钥和私钥配置SSH免密登录

编写集群同步脚本xsync

编写集群整体操作脚本vim xcall.sh

关闭防火墙和SELINUX

配置NTP时钟同步

4、CM安装部署

安装JDK

安装MySQL及其驱动(hadoop102上操作)

搭建本地yum源安装CM

进入/var/www/html/路径，并开启http服务

安装并修改CM配置文件

在MySQL中建数据库

启动服务：systemctl start cloudera-scm-server

查看日志并访问web ui

关闭服务

二、数仓之CDH

1、选择使用版本

免费版

2、部署CDH集群

选定物理节点

添加本地parcel库

自定义安装组件

角色分布

测试数据库连接

三、数仓搭建环境准备

1、Flume 安装部署

添加服务

选择依赖及部署节点

2、Sqoop安装部署

3、配置Hadoop支持LZO

配置-gplextras parcel库的url

Parcel列表中出现了GPLEXTERAS，依次点击下载、分配、激活

修改HDFS配置压缩编码解码器，加入com.hadoop.compression.lzo.LzopCodec

配置Hive 辅助 JAR 目录

修改Sqoop配置，配置项中搜索“sqoop-conf/sqoop-env.sh 的 Sqoop 1 Client 客户端高级配置代码段(安全阀)

4、修改yarn配置参数

配置内存大小“yarn.nodemanager.resource.memory-mb”，修改成4G

“yarn.scheduler.maximum-allocation-mb”，修改成2G

重启相关组件

5、HUE使用概述

HUE=Hadoop User Experience(Hadoop用户体验)，Hadoop的UI系统

http://hadoop102:8888(未优化)或http://hadoop102:8889(优化)

6、HUE用户管理

新建一个用户组——hive，并添加hive用户

四、数仓之用户行为数仓搭建

1、用户行为日志生成

分发jar包log-collector-1.0-SNAPSHOT-jar-with-dependencies.jar

并启动lg.sh脚本(将打印的数据读入)

2、日志数据导入数仓

日志采集Flume配置

Flume拦截器：ETL拦截器LogETLInterceptor(编写工具类调用)、日志类型区分拦截器LogTypeInterceptor

ETL拦截器主要用于，过滤时间戳不合法和Json数据不完整的日志
日志类型区分拦截器主要用于，将启动日志和事件日志区分开来，方便发往Kafka的不同Topic。

拦截器打包放入lib目录并进行分发

消费Kafka Flume配置

调用日志生成脚本lg.sh

#! /bin/bash

    for i in hadoop102 hadoop103 
    do
        ssh $i " source /etc/profile ; java -classpath /opt/module/log-collector-1.0-SNAPSHOT-jar-with-dependencies.jar com.atguigu.appclient.AppMain $1 $2 >/opt/module/test.log &"
    done

3、ODS层-原始数据层，存放原始数据

创建数据库：创建数据仓库目录、修改hive配置并启动、创建并使用gmall数据库

创建启动日志表ods_start_log

ODS层加载数据脚本：将指定日期数据加入表中

4、DWD层启动表数据解析

创建启动表、DWD层启动表加载数据脚本dwd_start_log.sh

5、DWS层(需求：用户日活跃)

统计当日、当周、当月活动的每个设备明细

编写加载数据脚本

6、ADS层(需求：用户日活跃)

目标：当日活跃设备数

编写ADS层加载数据脚本

#!/bin/bash

# 定义变量方便修改
APP=gmall

# 如果是输入的日期按照取输入日期；如果没输入日期取当前时间的前一天
if [ -n "$1" ] ;then
    do_date=$1
else 
    do_date=`date -d "-1 day" +%F`  
fi 

sql="
  set hive.exec.dynamic.partition.mode=nonstrict;

insert into table "$APP".ads_uv_count 
select  
  '$do_date' dt,
   daycount.ct
from 
(
   select  
      '$do_date' dt,
       count(*) ct
   from "$APP".dws_uv_detail_day
   where dt='$do_date'  
)daycount;
"

beeline -u "jdbc:hive2://hadoop102:10000/" -n hive -e "$

增加执行权限并使用：ads_uv_log.sh 2019-09-03

哥们要飞

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
【CDH数仓】Day01：概念、环境搭建、CDH数仓搭建、用户行为数仓搭建

一、数仓之Cloudera Manager1、CM简介拥有集群自动化安装、中心化管理、集群监控、报警功能的一个工具快速安装，快速运维，提高集群的效率CM架构2、阿里云服务器准备注册账号购买ECS云服务器ECS配置及安全组修改(开放各服务的端口)3、CM部署准备服务器连接修改hosts文件通过生成公钥和私钥配置SSH免密登录编写集群同步脚本xsync编写集群整体...
复制链接

扫一扫