HetuEngine简介

承缘丶

于 2024-07-03 20:12:55 发布

阅读量1.1k

点赞数 6

分类专栏：大数据知识文章标签： Hetu HetuEngine

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_30168227/article/details/140161428

版权

大数据知识专栏收录该内容

26 篇文章

订阅专栏

目录

HetuEngine是什么？

HetuEngine的特点以及使用场景

HetuEngine介绍

近期用到了Hetu，了解下这个工具是起什么作用的。

HetuEngine是什么？

是引擎，设计是为了让与当前的大数据生态完美融合的引擎，这里的大数据生态例如存储层的Hive、HBase、ClickHouse等。

它是一个一站式SQL分析引擎，相当于在Hive、GaussDB这种异源数据上面新增了一个上层页面，我们在上层页面写一个SQL，这个SQL中可以同时用到Hive的A表和GaussDB的B表，底层会自动到相应的数据库中执行、返值等，也就是能把跨源、跨域的数据，关联到一起做分析，而不用关注多类的数据去写多类的SQL，中间去搞各种临时表。

“河图引擎”在华为的描述中，可以让“逻辑数据湖”大规模数据融合分析提效50倍，开发效率提高2到10倍，后者我们倒是好理解，在开发者侧，引擎它屏蔽了底层的数据存储设施的复杂度，能像使用普通例如MySQL数据库一样使用大数据，能复用各种之前的技能、工具；前者对于分析效率的提高，我们接下来看看为什么怎么高。

HetuEngine的特点以及使用场景

特点

完全的内存计算，自动实现计算下推，动态过滤等，实现PB级数据毫秒级响应。
优化的计算引擎，先进的分布式计算框架和优化算法，能更高效地分配计算资源，并行处理数据，从而大大提高计算速度。
智能的数据缓存与预取，预测和提前加载常用数据，减少数据读取的时间开销，加速分析过程，减少IO浪费。
拥有强大的查询优化器，能够自动分析查询语句，制定最优的执行计划，避免不必要的计算和数据访问。
有效地管理和调度系统资源，确保在大规模数据处理时资源得到充分利用，避免资源竞争和浪费。

使用场景

主要还是跨数据源融合分析，整合来自不同数据源（如关系型数据库、大数据系统、NoSQL 数据库等）的数据，进行统一的分析，而不用把各种源的数据先统一抽取转换到一个统一的中间库中。

另外其实同理的就是，适用于跨域，即多个地域或者说数据中心的快速联合查询。

特别说下就是大批量、特别复杂逻辑的批处理场景其实不太适合用HetuEngine。

官网上也强调了“尤其适用于Hadoop集群（MRS）的Hive、Hudi数据的交互式快速查询场景”。

HetuEngine介绍

结构

数据层：即HetuEnging支持的数据源，其实也就是数据实际存储的位置。

引擎层：HetuEnging接收SQL、解析SQL、并行拉取数据层数据、分布式计算的地方。

服务层：门户、数据源连接以及管理等配置页面。

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。