数据仓库之电商数仓-- 4、可视化报表Superset

17 篇文章 16 订阅
11 篇文章 2 订阅

-----------------------------------------------------分隔符-----------------------------------------------------
数据仓库之电商数仓-- 1、用户行为数据采集==>
数据仓库之电商数仓-- 2、业务数据采集平台==>
数据仓库之电商数仓-- 3.1、电商数据仓库系统(DIM层、ODS层、DWD层)==>
数据仓库之电商数仓-- 3.2、电商数据仓库系统(DWS层)==>
数据仓库之电商数仓-- 3.3、电商数据仓库系统(DWT层)==>
数据仓库之电商数仓-- 3.4、电商数据仓库系统(ADS层)==>
数据仓库之电商数仓-- 4、可视化报表Superset==>
数据仓库之电商数仓-- 5、即席查询Kylin==>

一、Superset入门

1.1 Superset概述

Apache Superset是一个开源的、现代的、轻量级BI分析工具,能够对接多种数据源、拥有丰富的图表展示形式、支持自定义仪表盘,且拥有友好的用户界面,十分易用。

1.2 Superset应用场景

由于Superset能够对接常用的大数据分析工具,如Hive、Kylin、Druid等,且支持自定义仪表盘,故可作为数仓的可视化工具。
在这里插入图片描述

二、Superset安装及使用

Superset官网地址:http://superset.apache.org/

2.1 安装Python环境

Superset是由Python语言编写的Web应用,要求Python3.7的环境。

2.1.1 安装Miniconda

conda是一个开源的包、环境管理器,可以用于在同一个机器上安装不同Python版本的软件包及其依赖,并能够在不同的Python环境之间切换,Anaconda包括Conda、Python以及一大堆安装好的工具包,比如:numpy、pandas等,Miniconda包括Conda、Python。

此处不需这些工具包,选择MiniConda。

下载Miniconda(Python3版本)
下载地址:https://repo.anaconda.com/miniconda/Miniconda3-latest-Linux-x86_64.sh

安装Miniconda

  1. 执行以下命令进行安装,并按照提示操作,直到安装完成:
[xiaobai@hadoop102 superset]$ bash Miniconda3-latest-Linux-x86_64.sh

在这里插入图片描述

  1. 出现以下提示表明安装成功:
    在这里插入图片描述
    source环境变量配置文件
  2. miniconda安装完成后会在根目录下的.bashrc文件里自动添加家目录到path,如图:
[xiaobai@hadoop102 ~]$ vim .bashrc 

在这里插入图片描述
但仍需加载环境变量配置文件,使之生效:

[xiaobai@hadoop102 ~]$ source .bashrc 

取消激活base环境

(base) [xiaobai@hadoop102 ~]$ conda config --set auto_activate_base false

2.1.2 创建Python3.7环境

  1. 配置conda国内镜像:
[xiaobai@hadoop102 ~]$ conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/free
[xiaobai@hadoop102 ~]$ conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/main
[xiaobai@hadoop102 ~]$ conda config --set show_channel_urls yes

重置源配置:

conda config --remove-key channels 

查看源配置:

[xiaobai@hadoop102 ~]$ cat ~/.condarc
  1. 创建Python3.7环境:
[xiaobai@hadoop102 ~]$ conda create --name superset phthon=3.7

tips: ⭐️
conda环境管理常用命令:
创建环境:conda create -n env_name
查看所有环境:conda info --envs
删除一个环境:conda remove -n env_name --all

  1. 激活superset环境:
conda activate superset

退出当前环境:

conda deactivate

激活后:

(superset) [xiaobai@hadoop102 ~]$ 

注⚠️:
这里使用base环境也可以,但若是多环境,需切换之superset环境!

2.2 Superset部署

2.2.1 安装依赖

安装Superset之前,需安装以下所需依赖:

(superset) [xiaobai@hadoop102 ~]$ sudo yum install -y gcc gcc-c++ libffi-devel python-devel python-pip python-wheel python-setuptools openssl-devel cyrus-sasl-devel openldap-devel

2.2.2 安装superset

  1. 安装(更新)setuptoolspip
(superset) [xiaobai@hadoop102 ~]$ pip install --upgrade setuptools pip -i https://pypi.douban.com/simple/

注:pip是python的包管理工具,类似centos中的yum;

  1. 安装superset:
(superset) [xiaobai@hadoop102 ~]$ pip install apache-superset -i https://pypi.douban.com/simple/

pip install apache-superset --trusted-host https://repo.huaweicloud.com -i https://repo.huaweicloud.com/repository/pypi/simple

注:-i的作用是指定镜像,此处选择国内镜像;

  1. 初始化superset数据库:
(superset) [xiaobai@hadoop102 ~]$ superset db upgrade
  1. 创建管理员用户:
(superset) [xiaobai@hadoop102 ~]$ export FLASK_APP=superset
(superset) [xiaobai@hadoop102 ~]$ superset fab create-admin

注:flask是一个python web框架,Superset使用的就是flask

  1. 初始化superset:
(superset) [xiaobai@hadoop102 ~]$ superset init

2.2.3 启动superset

  1. 安装gunicorn
pip install gunicorn -i https://pypi.douban.com/simple/

注:gunicorn是一个Python Web Server,类似java中的TomCat;

  1. 启动后superset:
(superset) [xiaobai@hadoop102 ~]$ gunicorn --workers 5 --timeout 120 --bind hadoop102:8787  "superset.app:create_app()" --daemon 

注: 需确保当前conda环境为superset环境!

–workers:指定进程个数;
–timeout:worker进程超时时间,超时会自动重启;
–bind:绑定本机地址,即为Superset访问地址;
–daemon:后台运行;

  1. 登录superset:
    访问 http://hadoop102:8787 使用管理员账户进行登录。

  2. 停止superset:

ps -ef | awk '/superset/ && !/awk/{print $2}' | xargs kill -9

退出superset环境:

conda deactivate

2.2.4 superset启停脚本

  1. 在/home/xiaobai/bin目录下创建superset.sh问价:
[xiaobai@hadoop103 bin]$ vim superset.sh
#!/bin/bash

superset_status(){
    result=`ps -ef | awk '/gunicorn/ && !/awk/{print $2}' | wc -l`
    if [[ $result -eq 0 ]]; then
        return 0
    else
        return 1
    fi
}
superset_start(){
        source ~/.bashrc
        superset_status >/dev/null 2>&1
        if [[ $? -eq 0 ]]; then
            conda activate superset ; gunicorn --workers 5 --timeout 120 --bind hadoop102:8787 --daemon 'superset.app:create_app()'
        else
            echo "superset正在运行"
        fi

}

superset_stop(){
    superset_status >/dev/null 2>&1
    if [[ $? -eq 0 ]]; then
        echo "superset未在运行"
    else
        ps -ef | awk '/gunicorn/ && !/awk/{print $2}' | xargs kill -9
    fi
}


case $1 in
    start )
        echo "启动Superset"
        superset_start
    ;;
    stop )
        echo "停止Superset"
        superset_stop
    ;;
    restart )
        echo "重启Superset"
        superset_stop
        superset_start
    ;;
    status )
        superset_status >/dev/null 2>&1
        if [[ $? -eq 0 ]]; then
            echo "superset未在运行"
        else
            echo "superset正在运行"
        fi
esac
  1. 权限:
chmod +x superset.sh
  1. 测试执行
    启动superset:
[xiaobai@hadoop102 bin]$ superset.sh start

停止superset:

[xiaobai@hadoop102 bin]$ superset.sh stop

到这虚拟机崩溃了!g

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
好的,下面是搭建流程: 1. 虚拟机模板机:首先需要准备一台虚拟机作为模板机,安装好操作系统和必要的软件,如Java、Python等,在这里我们推荐使用CentOS系统。 2. 分布式集群:接着需要搭建一个分布式集群,可以使用Hadoop等大数据框架来实现。需要注意的是,在搭建分布式集群时,需要配置好各个节点的IP地址和端口号等信息。 3. OpenResty:在分布式集群搭建完成后,可以考虑使用OpenResty来实现负载均衡和反向代理等功能。OpenResty是一个基于Nginx的Web应用服务器,可以通过Lua脚本来扩展功能。 4. Hadoop:接下来需要安装Hadoop,Hadoop是一个开源的分布式存储和计算框架,可以用来处理大规模数据。在安装Hadoop时,需要配置好各个节点的Hadoop环境变量和配置文件等信息。 5. Zookeeper:在搭建Hadoop集群时,还需要安装Zookeeper来实现分布式协调和管理。Zookeeper是一个开源的分布式协调服务,可以用来维护集群中各个节点的状态信息。 6. Flume:在搭建完Hadoop和Zookeeper后,可以考虑使用Flume来实现数据采集和传输等功能。Flume是一个开源的分布式日志采集和传输系统,可以将数据从不同的数据源采集到Hadoop集群中。 7. Hive(MySql):在搭建好Hadoop和Flume后,可以考虑使用Hive来实现数据查询和分析等功能。Hive是一个基于Hadoop的开源数据仓库,可以通过类SQL语句来查询和分析存储在Hadoop集群中的数据。 8. Zeppelin:为了方便用户对Hadoop集群中的数据进行分析和可视化,可以使用Zeppelin来实现数据可视化功能。Zeppelin是一个开源的数据分析和可视化平台,可以通过Web界面来实现数据分析和可视化等功能。 9. DolphinScheduler:最后,可以考虑使用DolphinScheduler来实现任务调度和管理等功能。DolphinScheduler是一个开源的分布式任务调度和管理系统,可以用来管理Hadoop集群中的各种任务。 10. SuperSet可视化:如果需要更强大的数据可视化功能,可以使用SuperSet来实现。SuperSet是一个开源的数据可视化平台,可以用来展示Hadoop集群中的各种数据,并提供丰富的可视化图表和报表等功能。 以上就是从虚拟机模板机到SuperSet可视化的搭建流程,需要注意的是,在搭建过程中可能会遇到各种问题,需要根据实际情况进行调整和解决。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值