- 博客(9)
- 资源 (3)
- 收藏
- 关注
原创 Trino集成Alluxio Local Data Cache
Alluxio是以内存为中心的分布式虚拟存储系统,是大数据和机器学习生态系统中的新数据访问层。Alluxio在上层计算框架和底层存储系统之间架起了桥梁,应用层只需要访问Alluxio即可以访问底层对接了的任意存储系统的数据。本篇文章主要讲trino如何通过Alluxio构建Local Data Cache方案来加速IO密集型的query。
2023-09-05 15:41:21 466 2
原创 Trino Coordinator高可用技术方案
我们在kubernetes部署模式下实现了trino coordinator的高可用,通过将coordinator内部的相关状态下沉到新的角色resource manager中,使coordinator变成一个无状态的形式,从而可以完成coordinator的水平扩展能力,既解决了coordinator的单点故障问题,也解决coordinator后续的性能瓶颈问题。
2023-09-01 14:21:39 744 2
原创 动态catalog引起PluginClassLoader冲突
分析trino 动态catalog引起PluginClassLoader冲突的根本原因和解决思路
2023-09-01 12:25:39 135 2
原创 Trino Exchange Shuffle压缩优化
trino在tardigrade模式下如何实现shuffle压缩,从而降低IO吞吐消耗来提升批处理性能。
2023-09-01 11:27:07 219 1
原创 Tardigrade架构和原理
Tardigrade这个项目是trino社区最近一年启动的项目,核心目标是为了补充trino在批处理ETL场景可以提供更稳定可靠的使用体验。本篇主要讲述Tardigrade这个项目的架构和原理,同时也提出一些我们针对Tardigrade项目如何进行后续优化来完善trino批处理的能力。
2023-09-01 11:09:28 198
原创 基于trino构建新的算子下推框架
鉴于trino老的下推实现只能做一些简单表达式的下推,在真实业务的复杂SQL场景下,下推的效果很不理想。下推的效果对性能的影响非常大,特别是JDBC数据源。所以我们实现了新的算子下推框架去解决,每一个数据源connector可以更深入的参与优化。同时针对JDBC数据源,我们开发了一套通用优化规则,接入一个新数据源支持定制迭代相关的转换规则配置文件即可,而不需要开发代码。支持函数下推,包括标量函数、聚合函数和窗口函数。支持算术Operator、case when等复杂表达式的下推转换。
2023-09-01 10:41:44 446 2
原创 基于trino实现Sort-Based Shuffle
本文针对Trino在处理ETL任务中shuffle阶段存在的问题进行研究,结合Spark和Flink的Sort-based Shuffle实现,提出了一套针对Trino的sort-base shuffle方案。与Hash-based Shuffle相比,Sort-based Shuffle在处理大规模数据时表现更优,稳定性也更好。但在性能方面存在一定的退化,需要根据具体使用场景进行权衡。
2023-04-08 21:52:14 450
原创 基于trino实现Sort Merge Join
本文主要介绍了Trino如何实现Sort Merge Join算法,并与传统的Hash Join算法进行了对比。通过分析两种算法的特性,我们发现Sort Merge Join相对于Hash Join具有更低的内存要求和更高的稳定性,在大数据场景下具有更好的表现。因此,在实际的应用中,可以根据实际的业务场景来选择合适的Join算法。同时,我们通过功能测试和性能测试验证了Trino的Sort Merge Join算法在实际应用中的表现非常优秀,能够满足大数据批处理场景下高效稳定的处理需求。
2023-04-08 21:45:09 428 2
Source Insight 3.5 及注册机(附加配置文件)
2010-08-05
LM386 Low Voltage Audio Power Amplifier
2009-10-22
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人