一次使用 Kettle 处理 DataEase 展示的原始数据

一、背景信息

最近一直在学习 DataEase 的官方使用文档,由于公司的业务需求需要接触 BI 工具,开始接触到 DataEase,其简单易上手的功能吸引到我,正好自己也有可视化的需求,看到朋友们的推荐就使用了起来。

官方介绍 DataEase 是一款人人可用的、开源的数据可视化分析工具,可帮助用户快速分享数据并洞察业务趋势,从而实现业务的改进与优化,DataEase 不仅支持丰富的数据源链接,还能够通过拖拉拽快速制作图表,并方便与他人进行分享。

Kettle 是一款国外开源的 ETL 工具,Java 编写,可以在 Window、Linux、Unix 上运行,绿色无需安装,数据抽取高效稳定;Kettle 这个 ETL 工具集,允许你管理来自不同数据库的数据,通过提供一个图形化的用户环境来描述你想做什么,而不是你想怎么做。

二、前期准备

2.1 DataEase 安装部署

先是要搭建 DataEase 平台,到 DataEase 官网提供的在线文档看了安装模式,我选择安装本地模式,并参考官方知识库文章将 DataEase 的 Doris 端口映射到宿主机,安装过程如下。

d5b71cd63616433a803beb90664aa738.png

从官方的使用文档可了解到,DataEase 本地模式下包含了 Kettle 组件,可用于在本地模式下抽取数据和转换来至数据源的数据。

执行一键安装脚本后,很方便的把 DataEase 服务给安装好了,此外,我把 Kettle 的服务端口 18080 给映射了出来,通过修改 /opt/dataease/docker-compose-kettle.yml 文件添加 ports:- 18080:18080,再参考官方在线文档的 命令行工具,重新加载 docker-compose 文件即可,如下图所示 Kettle 和 Doris 的端口已经暴露出来。

077cc24edaa746a0a259b19e6d5c16a1.png

在浏览器直接访问 服务器 IP:80 端口即可,如下图所示已经成功安装好 DataEase。

2.2 Kettle 安装

下载 Kettle 安装包 pdi-ce-8.3.0.0-371,在 Windows 系统点击以下图标直接打开即可。

注意:需要在本地提前安装好 Java 环境。

a4ff684c187845989b84ea6d06a6c86e.png

打开后的 Spoon 界面如下图所示:

c6e1f2246e114b9888bbe0f3170bbdb7.png 三、数据获取

济南公共数据开放网下载原始的数据文件。

原始的数据类型如下:

492ae666972044d991ec55a38aabcd35.png

可以看出,原始的 gps 和 bus_lines_name 字段是我想要展示的,我的需求是用符合地图展示济南市公交站点的位置,参考官方的在线文档中符号地图的使用方法,为了更方便的对数据进行展示,需要对这两列数据进行处理,将每路的 GPS 定位的经纬度转化成两个字段,同时需要将 bus_line_name 字段的数据进行拆分。

四、数据过滤

在 Spoon 下操作,新建一个 Doris 库的链接。

导入文件后将 bus_lines_name 这一列拆分为多行,更方便数据进行展示。

将 gps 字段进行拆分,拆分成经度与维度字段。

如下图所示,确定好转换的流程。

 为了锻炼自己的 SQL 能力,我直接利用 Kettle 在已链接好的 Doris 数据库建表,建表语句如下。

CREATE TABLE bus_lines_name
(
  bus_lines_name_gj VARCHAR(20) COMMENT "公交路线"
, longitude VARCHAR(20) COMMENT "经度"
, latitude VARCHAR(20) COMMENT "维度"
)
DISTRIBUTED BY HASH(`bus_lines_name_gj`) BUCKETS 1
PROPERTIES (
"replication_allocation" = "tag.location.default: 1"
);

在本地执行转换,如下图所示,数据已经成功导入到 Doris 。 

ebdeb3b88181499692e3ea7ea8ceca23.png

五、数据集创建

新建一个 Doris 数据源,填上刚开始安装 Doris 数据库时的相关参数(包括端口号 9030)。

541fc9e9d67e4c4d963f2b61396f8ed6.png

 新建一个分组,命名为符号地图。

b3f357884b944da98e84762ec757b4ca.png

 添加数据库数据集,选择 Doris 类型的数据源,选择表 bus_lines_name 并选择直连模式即可。

08914e3fa2d0490f8b0f44aa8beb95a5.png

数据集这边可方便的进行数据预览,如下图所示。

781c4837272148929a47bc10e9b6274d.png

为方便数据展示,需要将数据集的字段类型更改为地理位置,如下图所示。 

六、仪表板制作

在仪表板 Tap 页,新建一个仪表板,并命名为济南市公交线路展示。

6ad673e0325a49c68803322da7a998c6.png

在仪表板编辑界面左侧点击添加视图,选择刚才新建的表,右侧确认数据正常点击下一步即可。

 图表类型这一步选择 AntV 的符号地图。

6e691e9de9f3442e993f130d4b29bcd6.png

点击视图组件右上角的视图编辑按钮(有个小铅笔),在仪表板右侧弹出的页面将经度与维度拖动到经度/维度框与纬度/维度框展示。

将视图拉大后,为了更为美观,在视图样式编辑界面将图形属性调整为标志,不透明度调整为 8 ,如下图所示。

870bdf890b174d579bd79521a8d193cd.png

在视图样式,调整标签设置,显示标签为公交路线即可。

最终的展示效果如下图所示。(ps:在仪表板展示界面,点击鼠标左键并往下拖动,符号地图即可呈现 2D 效果)

七、使用总结:

 DataEase 的仪表板制作确实很方便,和官网宣传的人人可用非常贴合,从数据源-数据集-视图-仪表板,整个流程下来,通过简单的拖拉拽即可完成。

此外,DataEase 官方也提供非常详细的在线文档和知识库,遇到不懂的问题直接查找即可,同时我在 DataEase 开源交流群也了解到官方在线文档内容也是跟随 DataEase 版本迭代进行按月更新的,可以说是非常的友好的。

不过通过此次符号地图的展示,也有些小建议,希望 DataEase 官方进行优化的:

1. 符号地图可记忆展示地图范围;

2. 数据集支持行列转换的功能。

八、附件

Kettle 安装包百度网盘链接地址:https://pan.baidu.com/s/1sMYw0H49uEBqwL_BGskt8g?pwd=am3q 
提取码:am3

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值