玩转大数据开发工具--上篇

为了降低大数据应用开发的门槛,简化开发过程,星环随Transwarp Data Hub 5.0开发出了大数据开发套件Transwarp Studio。Studio由一套PaaS产品构成,提供从提取、存储、计算、展示的全链路大数据开发服务,全面覆盖大数据开发流水线上的各项环节,为开发人员带来流畅的数据分析体验。

随着TDH 5.1的发布与性能提升,Studio各个产品也获得了核心性的改进和升级,并扩大了家族成员,发展进入一个新的阶段。

多维度分析引擎 Rubik

Rubik作为Studio中的多维度分析引擎,用于OLAP Cube的设计与实例化,帮助实现高并发的百亿行规模高维度SQL交互分析,对海量数据分析实现秒级甚至毫秒级的响应。Rubik 5.1在原有版本上得到了多方面的增进,对六个关键模块做了提升和丰富,在效率与应用性上得到成长。

想成为云计算大数据Spark高手,看这里!戳我阅读

年薪50W的Java程序员转大数据学习路线戳我阅读

大数据人工智能发展趋势与前景  戳我阅读

最全最新的大数据系统交流路径!!戳我阅读

2019最新!大数据工程师就业薪资,让人惊艳!戳我阅读

图1 Rubik Cube设计界面

增量构建

当新增数据进入系统后,在进行Cube模型实例化时,Rubik不再对数据做全量构建,而是基于原基础对新增部分做增量构建。Rubik的使用灵活性大幅提升,支持插入旧数据,以及向主表或码表插入数据,同时通过完善增量合并机制,对增量数据立方体做有效的自动管理,在修改历史数据的场景中也能够快速更新模型实例,保证Cube模型的准确性和时效性。

新增降维优化策略

Rubik以原有的聚合组、联合维度、衍生维度、层次维度、部分维度降维手段为基础,新增必备维度和互斥维度两种策略。其中必备维度是总会在查询中用到的一组维度,互斥维度指总是不可能一起出现的一组维度。通过结合各维度间的维度关系以及维度自身特征,Rubik会在Cube模型预计算时,减少建模时实际的维度组合,缩减建模时间与空间占用。

更多的度量分析函数

Rubik将支持的度量分析函数增加到10余个,可以在建模时实现更加丰富的函数分析。其中,增加的函数包括percentile的计算函数,以及精确重写和误差重写两种SELECT DISTINCT方式:精确重写的预计算速度和存储代价的较大,但是结果精确;误差重写的预计算和存储代价小,却影响精确度,但用户可以自主决定相对标准差的大小。

更有效的工作流控制

在数据量规模极大的情况下,Cube模型构建时间较长,存在失败风险。因此从5.1开始,Rubik将对接Workflow,获得更方便的调度和风险管控,以及实现任务重试、推迟构建、调整构建优先级等更丰富的功能。

模型导入导出

Rubik允许用户将Cube模型以JSON文本的方式导入导出平台,做半自动化的计算构建,同时支持跨集群的团队协助,方便远程诊断。

精细的权限控制

Rubik 5.1同安全管控产品Guardian进行无缝对接,实现赋权操作,用户可以在Guardian页面上对Rubik相关权限进行操作。Guardian为Rubik提供精细的权限控制,分别以域、项目、数据立方体划分权限级别,保证权限管理的灵活度。

目前,Rubik在金融行业的实际的落地项目中,能够灵活自如的应对报表查询和多维分析的需求,创造极速的高维度分析,同时带来良好的用户开发体验。

基于Web的报表工具

Transwarp Pilot是在5.1中新加入Transwarp Studio家庭的成员。作为轻量的自助式分析BI工具,Pilot克服了传统BI工具的缺陷,提供智能的分析体验,不论是对于可视化报表展现的丰富度,还是对于处理性能,都有极致的表现。

图2 Pilot报表界面

Pilot覆盖了用户对于报表工具的多项关键性需求,可应用于多种行业领域。

轻量

Pilot作为基于Web的报表展现工具,轻量、灵活,可以快速部署,允许用户在任意移动终端上访问,随时随地用报表展现目标业务数据。Pilot将加速笨重的传统BI工具成为历史产品。

丰富的展现

Pilot提供几十种报表样式,支持时序数据,支持数据预览。能够快速构建报表,满足用户多种分析需求,使得商业智能得以以更加丰富的表现形式表展现。

图3 Pilot支持的图表类型

极速分析

Pilot充分利用Inceptor分布式引擎加速自助分析,借助列式存储以及OLAP模型对多维分析的加速能力,提供秒级报表生成和语句分析响应速度。帮助业务人员有效把握时间,适应市场的快速变化。

自助SQL IDE

Pilot内置SQL IDE,对接Inceptor调试执行SQL语句。使SQL语句的调试执行与结果集的图表生成一气呵成。

交互式分析体验

Pilot通过拖拽式界面支持自助的仪表盘布局设计,用户可将相关报表组合在同一仪表盘,任意放大缩小报表尺寸,并通过过滤器聚焦关注内容。通过Pilot,用户可以对报表进行有效的观察和比对,了解趋势发现问题,实现多种数据分析需求。

HDFS文件管理

内置HDFS文件系统管理模块,提供HDFS目录浏览,并以可视化的方式取代命令行方式实现HDFS文件上传,实现便捷的HDFS文件管理。

支持多种数据源

Pilot可支持多种数据源,包括文件、Inceptor以及Oracle、MySQL等关系数据库。

目前,Pilot在某一网站分析的实际落地案例中,有效的为内部分析人员提供对访问者以及阅读量情况的精确、多样化的报表分析,帮助站运营人员实现网站内容管理的调整和优化。

下篇预告

Studio 5.1以“好用”为目标,将功能提升点围绕在加深工具的产品化,着力于实现更高生产力。下一篇中我们将继续介绍Studio 5.1的另外几个产品的新特性,其中包括图形化的ETL工具Transporter,功能越发强大的工作流引擎Workflow,以及新引入的日志存储和分析工具Milano。

 

 

 

Flink和ClickHouse是目前流行的企业级实时大数据开发工具。Flink是一个分布式流处理器,它可以提供超低延迟和高吞吐量的实时数据处理能力。ClickHouse则是一个高性能的列式数据库管理系统,适用于大规模数据存储和分析。 借助Flink,可以轻松构建实时数据管道,从不同的数据源获取数据,并进行流式处理和分析。Flink提供了丰富的算子库,使得开发者能够快速构建复杂的实时处理逻辑。同时,Flink还支持Exactly-Once语义,确保数据的精准一次性处理。在处理完数据后,Flink可以将结果发送到ClickHouse进行持久化存储和查询。 ClickHouse是一个高效的数据存储和分析解决方案。它基于列式存储方式,可以有效地处理数十亿条数据。ClickHouse支持常见的SQL查询语句,可以进行快速的数据分析和多维度的聚合查询。ClickHouse还支持水平扩展,可以轻松应对大规模数据的存储和查询需求。 结合使用Flink和ClickHouse,可以构建实时大数据分析平台。首先,Flink可以通过连接不同的数据源(如Kafka、Hadoop等)获取数据,并进行实时处理和数据转换。然后,处理后的数据可以通过Flink的连接器(如ClickHouse连接器)发送到ClickHouse进行存储和查询。这种集成方案能够实现低延迟的数据处理和高效的数据存储,帮助企业实时获得有价值的洞察力。 对于企业级实时大数据开发者而言,掌握Flink和ClickHouse的使用和调优技巧非常重要。可以通过阅读相关文档和教程,加入相关的技术社区(如CSDN)以获取帮助和分享经验。还可以通过参与实际项目,结合实践经验来提升技术水平。总之,利用Flink和ClickHouse,企业可以更好地实现实时大数据处理和分析需求,提升数据驱动的决策能力。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值