【星环社区版TDH2024年度大事件】全新版本?全新组件?性能提升10倍?

TDH社区版家族迎来新成员

不知不觉社区版已经陪伴大家将近两年的时间了,在这两年里收获到了很多认可,同时也收获到了一些建议与意见,比如资源成本的问题。在去年我们发布了TDH社区开发版,仅需单台服务器即可一键安装部署Inceptor关系型分析引擎以及Hyperbase NoSQL宽表数据库,降低资源成本的同时充分提升了开发效率。

发布后获得了很多用户的关注与喜欢。为了进一步满足用户在多样化数据检索以及使用图模型探索复杂的关联关系等方面的需求,此次社区开发版正式推出Scope搜索引擎以及StellarDB图数据库。

image.png

社区开发版让众多开发爱好者可以0成本、低门槛快速的构建数据开发环境,无论您是想快速地体验企业级产品功能,亦或是想要学习了解相关技术,社区开发版都能很好地满足您的需求。

  • 开箱即用:Scope社区开发版及StellarDB社区开发版同样采用了all-in-one全内置设计的产品包形式,将各类核心服务深度整合于一体,开箱即可用。免去了平台安装的步骤,只需三步即可一键启动。用户无需花费大量时间和精力来进行环境配置、安装部署,平台预先设置了最佳的默认参数配置,确保了用户在部署时能享受到前所未有的简便快捷;
  • 低成本:社区开发版充分降低了用户的使用门槛以及资源成本,单台服务器即可一键部署。自研的统一SQL引擎更是进一步降低了用户的整体学习成本和应用开发门槛;
  • 企业级管理套件:社区开发版同样配备了企业级管理套件,比如对所有组件与服务进行统一管理的平台Manager、全方位监控系统负载与任务运行状况的平台监控软件Aquila Insight、提供身份认证与精细化权限安全管理软件Guardian。通过完备的管理组件,用户得以全面而精确地把握产品环境整体的运行情况,真正做到运维无忧。

以下为相关资源链接:

版本全线更新,全面解决小文件、数据倾斜等问题

TDH社区开发版以及社区版让众多的开发爱好者可以“0成本”“低门槛”,快速的构建数据开发环境。无论用户是想快速体验企业级产品功能还是想要学习了解相关技术,都能够很好的满足用户的需求。

此次社区版家族还针对版本做了更新。

新版本特性可查看: ReleaseNotes

image.png

image.png

更新点1. 小文件问题救星来了

大数据场景下会产生海量文件,随着每日增量数据的插入以及可能的数据重复插入,HDFS上的文件数与日俱增,达到千万甚至上亿的级别。当小文件过多时,将会导致长GC、OOM、集群不稳定,增加计算资源的开支等一系列问题。因此小文件治理是必要的也是迫切的。

星环产品针对不同表格式均有对应的Compact机制,譬如针对Holodesk表用户可以使用Compact Service(小文件合并专用服务)进行小文件合并任务,该服务在组件级别做了隔离,开启后不会影响到Quark的查询计算性能,合并效果更好。

但是在Inceptor跑批场景下会涉及ORC等非事务表,其不像事务表有文件合并的逻辑。而且,开源产品的方案通常是在任务运行结束后再去起一个Job执行合并任务,但是在这个阶段,表无法对外提供服务,只能读不能写,相关业务会受到影响。

所以星环采用了全新的技术,针对这个场景做了设计了新的算法,在任务运行过程中动态的执行小文件合并操作,能够确保在合并过程中Quark端的业务,包括表的读,写,删除等操作能够不被长时间阻塞,并成功执行不报错。

社区版今年将企业版针对非事务表小文件治理方面的功能Galactus做了引入,社区版用户也可以高效治理自己集群内的小文件,无需担心因为处理不及时或有疏漏影响到业务系统。更多原理解析及使用教程可查看: Text/ORC非事务表合并最佳方式

除了非事务表小文件更新的能力之外,社区版此次也引入了归档分区功能,针对一些较少访问及更改的历史数据及分区信息,用户可以选择跨分区进行合并,从而进一步的去减少存储开销、元数据管理的开销以及处理时的任务调度开销。 归档分区介绍及使用方法

更新点2. 数据倾斜治理好帮手

数据倾斜指的是说在并行处理海量数据的时候,单个task上需要处理大量的数据。一些处理节点会比其他节点需要更长的时间运行才能完成数据计算,这样既限制了并行处理的效率,也造成了空闲处理节点的资源浪费,系统将无法充分利用节点进行并行处理,十分影响性能和效率。

当在计算过程中出现数据倾斜的问题时,通常可以通过采用针对倾斜的key单独处理或MapJoin等方式进行处理。但是比如像MapJoin主要适用于大小表关联的情况。

社区版此次针对大表与大表之间进行关联发布了新的SkewJoin功能,可以在一定程度缓解大表关联场景下的数据倾斜问题。

更多原理解析及使用教程可查看:SkewJoin原理解析及使用介绍

更新点3. 全新Manager

Manager是保障集群稳定运行最高效的方式,它为底层每个核心组件都提供了强大的统一管理及运维能力。所以这次Manager针对UI,监控服务的集成也做了全新的优化升级,解锁新增了各项创新功能之外,也做了系统范围内的性能提升。

比如说开源产品在管理大集群方面一直以来都存在一些挑战,社区版在管理集群的能力上跟企业版保持了一致,所以这次也针对大集群下的集群安装,节点上下线的管理,以及服务的配置,启动等方面做了全方位的性能提升,操作速度更快也更稳定了。即使是数百上千个节点,在生产上也不用担心。

更多Manager新版本特性可查看: ReleaseNotes

TDH社区订阅版迎来最强辅助,TDS开发套件强势来袭

企业在信息化过程中积累了大量的业务系统和数据,TDH社区订阅版的发布,为企业在整合已有的海量多维度、多样化数据、数据统一化等方面的业务需求提供了有力支持。那么在构建数据仓库或数据湖的过程中,除了需要构建统一的计算和存储平台,进行统一的元数据管理之外,利用数据开发套件支持数据汇聚和开发也是企业数据平台建设过程的关键。

星环科技大数据开发工具 Transwarp Data Studio (TDS)为企业提供了一个一站式统一的数据开发平台,各个套件可以支持多个场景的使用需求,如数据开发场景、数据治理场景或者综合性的数据中台场景。针对更加细化的细分场景如任务流调度、血缘分析或数据资产门户等,TDS可以支持任意组件组合的形式,提供产品能力服务。

此次社区订阅版上架的TDS数据开发套件(SQLBook/Workflow/Transporter)提供了数据集成、SQL开发和任务调度的能力,帮助企业将数据归集到数据仓库和数据湖,可以更高效地完成数据统一化。

开发套件能力演示视频

image.png

image.png

有关更多详细的产品能力介绍,感兴趣的读者可访问 TDS平台各功能能力一览 进一步查看。

<think>好的,我现在需要处理用户关于星环TDH平台SQL用法或问题的查询。首先,用户提到TDH可能是星环科技的大数据平台,而他们想了解相关的SQL用法或问题。根据提供的引用内容,我需要从这些引用中提取相关信息,并结合我的现有知识来构建回答。 首先,查看引用内容: 引用[1]提到在TDH中使用Hive时,可以使用start with进行递归查询,类似于Oracle的语法。这应该是递归查询的用法。 引用[2]指出在TDH境中执行SQL时遇到OutOfMemory错误,原因是涉及大表的group by操作导致map端聚合超出内存限制。这说明用户在使用大表聚合时需要注意优化。 引用[3]和[4]介绍了TDH的组成和核心产品,特别是Inceptor作为大数据分析数据库,支持Inceptor SQL、PL/SQL等,并且元数据存储在Metastore中,数据可以存在HDFS或内存/SSD中。这可能涉及不同存储引擎的使用场景和优化方法。 用户的问题可能包括如何使用特定功能,如递归查询,以及如何处理性能问题,如内存溢出。此外,可能还需要介绍TDHSQL的一般用法,比如支持的语法、存储引擎的选择、性能优化技巧等。 接下来,我需要将这些信息组织成结构清晰的回答。首先,介绍递归查询的实现,引用[1]中的例子。然后,讨论性能优化,如避免大表group by导致的内存问题(引用[2]),以及Holodesk引擎的使用(引用[4])。此外,还需要提到TDH支持的SQL方言和扩展功能,比如Inceptor SQL和PL/SQL的支持(引用[4])。可能还需要补充其他注意事项,比如存储格式的选择(ORC、TEXT等)对性能的影响,以及事务处理的支持情况。 在生成相关问题部分,需要围绕这些主题展开,比如如何优化递归查询、处理内存错误的方法、不同存储引擎的区别等。 需要确保回答中的LaTeX格式正确,行内公式用$...$,独立公式用$$...$$,但根据用户的问题,可能不需要太多数学公式,但如果有涉及性能分析的公式可能需要使用。例如,计算内存使用量可能需要公式,但根据引用内容,可能不需要。因此,可能主要关注语法和优化建议,而非数学表达式。 最后,检查所有引用是否恰当,回答是否符合用户的要求,结构是否清晰,是否生成了相关问题。</think>### TDH平台SQL用法与常见问题 根据星环TDH的技术文档,其SQL功能主要体现在Transwarp Inceptor(大数据分析数据库)和Hive组件的使用中,以下为关键点整理: 1. **递归查询实现** 在TDH的Hive组件中,可通过Oracle语法实现递归层次查询,使用`start with ... connect by`语句。例如查询部门层级关系: ```sql SELECT dept_id, parent_dept FROM departments START WITH parent_dept IS NULL CONNECT BY PRIOR dept_id = parent_dept; ``` 此语法与Oracle兼容,但需注意TDH版本是否支持[^1]。 2. **性能优化方法** - **避免大表GROUP BY内存溢出**:若执行含大表聚合操作的SQL时报错`OutOfMemory`,需检查是否因Map端聚合数据量超过Hash Map限制。优化方法包括: - 增加`mapreduce.task.io.sort.mb`参数值 - 减少聚合字段数量或提前过滤数据[^2]。 - **使用Holodesk引擎加速查询**:将频繁访问的热数据表定义为Holodesk表(存储于内存/SSD),适用于实时分析场景。例如: ```sql CREATE HOLO TABLE sales (...) STORED AS HOLODESK; ```[^4] 3. **存储格式与语法扩展** - **支持多种存储格式**:包括TEXT、ORC、CSV等,需根据场景选择。例如ORC格式适合压缩与分析,CSV适合数据交换。 - **Inceptor SQL扩展功能**:支持PL/SQL语法、窗口函数、自定义函数(UDF)等,例如: ```sql CREATE FUNCTION calculate_tax(salary DOUBLE) RETURNS DOUBLE BEGIN RETURN salary * 0.1; END; ``` 4. **事务与锁机制** TDH Inceptor支持ACID事务(仅限ORC表),可通过`BEGIN TRANSACTION`和`COMMIT`控制,但需注意锁粒度对并发性能的影响。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值