研发效能工程实践-利用Superset快速打造大数据BI平台

大数据BI平台自研之殇

随着互联网发展,现在随便哪个公司都手握大量数据。如何利用这些数据为公司商业带来价值,触使各个公司投入大量人力财力去做商业智能。
早期的BI可能就是公司Leader叫开发小哥写几句SQL导出数据,然后导入到Excel里绘制几个图表;这一模式维持了一段时间,后来领导觉得这帮业务开发只会导数据,一点想法都没有,忽然有一天在网上看到数据分析师心想这不就是我要找的人吗?就这样公司招来一个数据分析师,数据分析师来了之后效率果然提升了不少,而且总是能做出让老板眼前一亮的报表。这样的日子又维持了一段时间,随着公司越来越大,数据也越来越多,老板开始嫌弃,数据分析师每次都是那些报表,太单一,而且没有一个平台让他实时的看数据。老板说我们要大数据平台,我要实时报表,赶紧让下边的那帮数据分析师和开发给我搞,我现在就要。开发和数据分析师收到指示后表面笑嘻嘻,心里MMP上哪儿给你搞一个平台
开发们拿到指示后开始分析,一个大数据BI平台需要哪些组件,分析一通之后,说最起码需要这些

  • 自定义仪表盘
  • 支持配置各种图形组件
  • 实现一个查询引擎,可能要支持多种数据库
  • 得有一套查询任务调度器,不然如果是同步的,查询的人一多,数据库就BBQ了
  • 你得支持数据图表下钻吧
  • 过滤条件得支持吧
  • 自定义SQL得支持吧

列完之后,一个开发问了旁边小伙伴:“老板是说一个月要看到效果吗?”,小伙伴回答:“可不”,开发问小伙伴“看见我的桶了吗?”,小伙伴一脸疑惑:“干啥?”,开发答道:“提桶跑路啊,不然我还真一个月做一个平台出来呀”
一个小公司要想短时间之内做一个“基本可用”的BI平台,那几乎是不可能完成的任务。好在你想到的问题,开源社区的大佬早就给你准备好答案了,Superset可以满足你的基本需求,superset在Github上已经有4.9w的星星,可见其火爆,有了它,开发小哥不跑路了,淡定的去茶水间泡了一杯咖啡,边喝边说:“慢慢来,慌啥呀”

Superset介绍

superset是一个现代数据探索和数据可视化平台,后端采用python的Flask框架开发,前端采用React。基于Superset可以极大的简化构建BI平台,看一下官方给的demo效果

支持的图表一角
在这里插入图片描述

Seperset优点
  • 极低的部署成本,如果只是想试一下,那么你只需要几分钟就可以搭建起环境
  • 支持众多主流数据库,支持的种类30+数据库驱动,基本上你的数据库都已经杯支持
  • 直观的交互式仪表盘
  • 支持大量的Chart
  • 数据集除了支持物理表,还支持虚拟表,结合SQL Lab你可以编写非常灵活的统计脚本来定制数据集,需要一定sql能力
  • SQL lab的sql支持动态参数,目前支持一些内置参数和筛选器和url参数
  • 支持可视化图表以插件形式扩展
  • 支持异步查询任务管理,将计算独立,提供更高的可扩展性
Superset不足

好的说完了,也说一下一些不足的地方吧

  • 文档不够详细,作为一款操作性很高的平台,缺乏step-by-step教程,很多东西需要自己去探索,新接触上手可能没有那么容易
  • 筛选器有个点要吐槽一下,不支持key-value形式的筛选器,比如我展示给用户看的筛选框的值是姓名,但是我查询传递参数时传递用户ID,这块需要自己做二次开发支持
  • SQL Lab在编写时,如果有外部参数需要传入,因为在编写SQL时无法传入筛选器的值,因此必须通过jinja脚本编写逻辑判断来设置默认值,否则你想用SQL结果创建虚拟dataset的列元数据会因为sql查询无结果导致没有值,你无法用这个dataset做可视化

Superset安装部署

体验部署

如果你只是想体验一下,建议Docker部署,建议直接拉取superset的镜像,因为本地自己构建镜像可能会遇到各种问题,特别是前端拉取包和编译真的慢。你可以用docker搜索一下superset镜像

docker search superset

然后拉取apache/superset镜像

docker pull apache/superset

拉取成功之后就可以启动了

docker run --name superset -u 0 -d -p 8088:8088 apache/superset

启动之后要初始化superset的数据库

docker exec -it superset superset db upgrade

然后需要创建一个管理员用户,方便登录管理页面,注意这里设置管理员账号的时候登录用户名是username,不要搞错了

docker exec -it superset superset fab create-admin

然后初始化superset

docker exec -it superset superset init

启动服务

docker exec -it superset superset run --with-threads --reload --debugger

如果没有报错,那么恭喜你,体验版已经部署成功了,现在可以在浏览器输入localhost:8088登录体验了

生产单机部署

上边的部署只能是体验一下,运行模式是单进程,python的单进程,你懂的,并且数据库也是本地的sqlite当你容器重新部署时没有挂载本地磁盘,数据就会消失。

配置修改

生产部署至少要修改几个配置的地方

  1. 修改数据库
    这里最好用mysql或者postgres,在superset文件夹下的config配置中
    SQLALCHEMY_DATABASE_URI = 'postgressql://username:password@ip:port/database'
    
  2. 开启sqlab的模板配置
    ENABLE_TEMPLATE_PROCESSING = True
    
  3. 添加数据库驱动包
    如果你使用的数据库不在superset默认提供的以内,那么需要自己安装驱动包,比如我们使用clickhouse是没有的,那么就需要在requirements文件夹下的development或者base的txt文件中添加需要安排的包,这样在构建镜像时会自动安装上
    clickhouse-sqlalchemy==0.2.2
    
打包镜像
docker build =t superset:v1.0

这里要注意部署的时候是gunicorn启动的,需要设置一个SERVER_WORKER_AMOUNT环境变量,如果没有设置的话,会默认单进程启动,这个时候如果你的看板有多个卡片,你的卡片就会一个一个的串行加载,所以一定要设置这个参数,让服务并行启动,至于启动多少个,那么得看你分配的cpu核心数,你可以先设置核心数*2,然后在监控后续调整

二次开发环境搭建

其实superset基本可以满足我们BI分析需求,但是往往我们还有一些其他的,比如数据权限管控、我们可能要通过数据的所有者来管控权限,而不仅仅通过dataset来管控;还有就是上边也说了一些不足,筛选框不支持key-value的形式;缺乏树形结构展示组织,这个还是挺常用的;图表下钻时表头能根据层级自动切换等等。那么我们需要做二次开发

编译前端代码

如果你第一次从github上把superset拉取下来,直接启动项目的话,浏览器打开时会报错,这是因为前端没有编译。首先你需要确保你安装node和npm,这里不在讲解如何安装node和npm,注意这里node和npm的版本官方好像有要求,具体可以参考superset前端编译。安装完成后切换到superset-frontend目录

  • 安装前端依赖包
    npm ci
    
    如果下载依赖包慢的话,可以配置国内镜像
    npm config set registry https://registry.npm.taobao.org
    
  • 编译
    npm run build
    
  • 前端热更新
    如果想前端热更新,那么需要前后端单独启动
    npm run dev
    
后端启动

superset后端采用了python,而python开发中建议使用虚拟开发环境,避免包版本问题

  • 安装虚拟环境
    python3 -m venv venv
    
  • 启用虚拟环境
    source venv/bin/activate
    
  • 安装依赖包
    python3 -m pip install -r requirements/integration.txt
    
  • 启动
    FLASK_ENV=development superset run -p 8088 --with-threads --reload --debugger
    
  • 如果你使用VS Code作为开发环境建议你加上如下launch.json,方便本地启动调试
    {
        // Use IntelliSense to learn about possible attributes.
        // Hover to view descriptions of existing attributes.
        // For more information, visit: https://go.microsoft.com/fwlink/?linkid=830387
        "version": "0.2.0",
        "configurations": [
            {
                "name": "Python: Flask",
                "type": "python",
                "request": "launch",
                "module": "flask",
                "env": {
                    "FLASK_APP": "superset",
                    "FLASK_DEBUG": "1"
                },
                "args": [
                    "run",
                    "-p",
                    "3000",
                    "--no-debugger",
                    "--no-reload"
                ],
                "jinja": true,
                "justMyCode": true
            }
        ]
    }
    

使用心得

目前我们是用superset来打造公司的研发效能大数据BI平台,目前正处于研发阶段。已基本有了雏形,不过还有很多需要完善的地方。目前我们团队主要解决的问题

  • 增强图表组件-树形组件
  • K-V筛选组件
  • 环比指标组件等

当然还有一些需要解决,也可能还有一些坑我们没有解决,比如

  • 图表只能选择一个dataset,目前的解决方案是将多个表的数据以sql方式聚合成一个superset的虚拟dataset
  • 图表下钻表头可动态切换
  • sqlab的自定义条件时不是很方便,目前还没有想到有什么好的解决方案,后续可能会跟进

后续会逐步介绍我们在利用superset构建BI平台中遇到的一些坑,以及如果建设一个研发效能平台,同时也欢迎同行来交流

  • 1
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 4
    评论
评论 4
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值