玩转大数据开发工具--上下全篇

Transwarp Studio 5.1带来了大数据开发套件的重大升级,包括多维度分析引擎Rubik的性能提升和新功能,如增量构建、降维优化策略等,以及新成员报表工具Pilot,提供轻量、快速的自助式分析体验。此外,预告了后续将介绍的图形化ETL工具Transporter、工作流引擎Workflow和日志存储分析工具Milano。
摘要由CSDN通过智能技术生成

为了降低大数据应用开发的门槛,简化开发过程,星环随Transwarp Data Hub 5.0开发出了大数据开发套件Transwarp Studio。Studio由一套PaaS产品构成,提供从提取、存储、计算、展示的全链路大数据开发服务,全面覆盖大数据开发流水线上的各项环节,为开发人员带来流畅的数据分析体验。

随着TDH 5.1的发布与性能提升,Studio各个产品也获得了核心性的改进和升级,并扩大了家族成员,发展进入一个新的阶段。

多维度分析引擎 Rubik

Rubik作为Studio中的多维度分析引擎,用于OLAP Cube的设计与实例化,帮助实现高并发的百亿行规模高维度SQL交互分析,对海量数据分析实现秒级甚至毫秒级的响应。Rubik 5.1在原有版本上得到了多方面的增进,对六个关键模块做了提升和丰富,在效率与应用性上得到成长。

 

 

图1 Rubik Cube设计界面

增量构建

当新增数据进入系统后,在进行Cube模型实例化时,Rubik不再对数据做全量构建,而是基于原基础对新增部分做增量构建。Rubik的使用灵活性大幅提升,支持插入旧数据,以及向主表或码表插入数据,同时通过完善增量合并机制,对增量数据立方体做有效的自动管理,在修改历史数据的场景中也能够快速更新模型实例,保证Cube模型的准确性和时效性。

新增降维优化策略

Rubik以原有的聚合组、联合维度、衍生维度、层次维度、部分维度降维手段为基础,新增必备维度和互斥维度两种策略。其中必备维度是总会在查询中用到的一组维度,互斥维度指总是不可能一起出现的一组维度。通过结合各维度间的维度关系以及维度自身特征,Rubik会在Cube模型预计算时,减少建模时实际的维度组合,缩减建模时间与空间占用。

更多的度量分析函数

Rubik将支持的度量分析函数增加到10余个,可以在建模时实现更加丰富的函数分析。其中,增加的函数包括percentile的计算函数,以及精确重写和误差重写两种SELECT DISTINCT方式:精确重写的预计算速度和存储代价的较大,但是结果精确;误差重写的预计算和存储代价小,却影响精确度,但用户可以自主决定相对标准差的大小。

更有效的工作流控制

在数据量规模极大的情况下,Cube模型

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值