Doris vs Impala 性能对比_impala和doris的区别，面试大数据开发工程师会问到那些问题

最新推荐文章于 2024-05-10 09:49:23 发布

2401_84159813

最新推荐文章于 2024-05-10 09:49:23 发布

阅读量710

点赞数 29

分类专栏：程序员文章标签：面试大数据职场和发展

本文链接：https://blog.csdn.net/2401_84159813/article/details/137702894

版权

程序员专栏收录该内容

189 篇文章 0 订阅

订阅专栏

缺点
- 高并发支持不是很友好。
- 基于hive，与hive共存亡，紧耦合。
- 社区活跃度不高解决问题成本高。

1.1.2 应用场景

Impala不同于hive，hive底层执行使用的是MapReduce引擎，仍然是一个批处理过程。不同于hive，impala中间结果不写入磁盘，即使及时通过网络以流的形式传递，大大降低的节点的IO开销。灵活性高。在一些实时性要求很高的场景中，一方面满足实时性要求，一方面提升用户体验。

1.2 doris

1.2.1 简介

Apache Doris (incubating)（原Palo）是一款百度大数据团队自主研发的MPP数据库，其功能和性能已达到或超过国内外同类产品。是一个基于 MPP 架构的高性能、实时的分析型数据库，以极速易用的特点被人们所熟知，仅需亚秒级响应时间即可返回海量数据下的查询结果，不仅可以支持高并发的点查询场景，也能支持高吞吐的复杂分析场景。

优点
- 全新的向量化执行引擎
,

亚秒级查询延时

,

单节点每秒可处理

100

亿行数据

\textcolor{Red}{全新的向量化执行引擎,亚秒级查询延时,单节点每秒可处理100亿行数据}

全新的向量化执行引擎,亚秒级查询延时,单节点每秒可处理100亿行数据
- 灵活的资源分配策略,
每秒可支持高达

3

万以上的并发查询

\textcolor{Red}{每秒可支持高达3万以上的并发查询}

每秒可支持高达3万以上的并发查询
- 支持数千用户同时进行数据分析
\textcolor{Red}{支持数千用户同时进行数据分析}

支持数千用户同时进行数据分析
- 集群运行高度自治化,故障自恢复,运维成本低
- 极简的架构,只有两类进程: fe 和be 无任何外部依赖,便于维护
- 完全国产化
\textcolor{Red}{完全国产化}

完全国产化
缺点
- 数据导入支持不是很友好
- 框架不够成熟会有一些缺陷

1.2.2 应用场景

报表分析
- 实时看板（Dashboards）。
- 面向企业内部分析师和管理者的报表。
- 面向高并发报表分析（Customer Facing Analytics）。比如面向网站主的站点分析、面向广告主的广告报表，并发通常要求成千上万的QPS，查询延时要求毫秒级响应。
即席查询（Ad-hoc Query）：面向分析师的自助分析，查询模式不固定，要求较高的吞吐。
统一数仓构建：一个平台满足统一的数据仓库建设需求，简化繁琐的大数据软件栈。基于Doris构建的统一数仓，替换了原来由Spark、Hive、Kudu、Hbase、Phoenix组成的旧架构，架构大大简化。
数据湖联邦查询：通过外表的方式联邦分析位于Hive、Iceberg、Hudi中的数据，在避免数据拷贝的前提下，查询性能大幅提升。

2. 功能对比

2.1 社区活跃度

doris
- 社区很活跃版本更新迭代很快漏洞及时修复
impala
- 社区不活跃目前发现的问题只能自己去修复或者写脚本去修复

2.2 运维成本

doris
- 极简的架构,只有两类进程: fe 和be 无任何外部依赖,便于维护
impala
- 需要同时维护 impala+kudu+hdfs

2.3 并发问题

doris
- 灵活的资源分配策略，每秒可支持高达3万以上的并发查询
- 有效支持数千用户同时进行数据分析
impala
- 由于设计架构之处，只是为了大数据etl处理，对并发查询支持很不友好
- 只能通过负载的方式，将查询分发的不同的工作节点，并且单节点最大查询为30

2.4 国产化问题

doris
- 目前由北京飞轮数据科技有限公司做开发维护
- 完全由中国工程师打造的核心基础软件
\textcolor{Red}{完全由中国工程师打造的核心基础软件}

完全由中国工程师打造的核心基础软件
- 支持各类主流国产硬件
impala
- Impala是国外Cloudera公司主导开发

2.5 技术支持

doris
- 目前doris团队无偿做技术支持，问题恢复很及时。
impala
- 目前由于cdh 闭源要想的到母公司的技术支持只能是通过买cdh集群后才能获得

3. 现状问题

3.1 并发问题

问题描述:

impala 中有提交大量的查询，会导致服务连接不上impala

问题原因:

由于impala 设计之初，没有考虑到并发查询，作为一个大数据处理的框架，更多的是用来做大数据离线etl数据处理。

doris 解决方案:

参考文档: doris Release 2.0.0

doris 在设计的时候，已经想到了并发的问题，目前根据官方文档的介绍 sql 查询支持三万以上支持数千用户同时查询。

3.2 运维成本高的问题

问题描述:

目前使用要做到实时读写，需要同时维护三套大数据组件 hdfs(离线数仓) kudu(实时数仓) impala(查询引擎)。

doris解决方案:

doris 本身做到的实时读写，不需要依赖于别的组件。

doris 是采用mysql 协议，可以直接当做mysql 使用。

3.3 框架问题无法修复

问题描述:

目前impala 使用下来有很多的问题，但是开源社区并不活跃，阿里云的技术支持也不是很熟悉impala框架，经常有解决不了的问题，只能去深度查询问题，并通过一些定时脚本去解决。

doris 解决方案:

目前doris 开发团体无偿的提供了一个技术支持的团队支持诸葛doris 使用有bug 会及时做修复有问题会及时帮忙解决会指导如何高效的使用doris。

4.性能对比

4.1 测试服务器配置

impala

自我介绍一下，小编13年上海交大毕业，曾经在小公司待过，也去过华为、OPPO等大厂，18年进入阿里一直到现在。

深知大多数大数据工程师，想要提升技能，往往是自己摸索成长或者是报班学习，但对于培训机构动则几千的学费，着实压力不小。自己不成体系的自学效果低效又漫长，而且极易碰到天花板技术停滞不前！

因此收集整理了一份《2024年大数据全套学习资料》，初衷也很简单，就是希望能够帮助到想自学提升又不知道该从何学起的朋友。

既有适合小白学习的零基础资料，也有适合3年以上经验的小伙伴深入学习提升的进阶课程，基本涵盖了95%以上大数据开发知识点，真正体系化！

由于文件比较大，这里只是将部分目录大纲截图出来，每个节点里面都包含大厂面经、学习笔记、源码讲义、实战项目、讲解视频，并且后续会持续更新

如果你觉得这些内容对你有帮助，可以添加VX：vip204888 （备注大数据获取）

一个人可以走的很快，但一群人才能走的更远。不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人，都欢迎扫码加入我们的的圈子（技术交流、学习资源、职场吐槽、大厂内推、面试辅导），让我们一起学习成长！

是将部分目录大纲截图出来，每个节点里面都包含大厂面经、学习笔记、源码讲义、实战项目、讲解视频，并且后续会持续更新**

如果你觉得这些内容对你有帮助，可以添加VX：vip204888 （备注大数据获取）
[外链图片转存中…(img-qoSaz3BT-1712957197285)]

2401_84159813

关注

29
点赞
踩
30

收藏

觉得还不错? 一键收藏
0
评论
Doris vs Impala 性能对比_impala和doris的区别，面试大数据开发工程师会问到那些问题

Apache Doris (incubating)（原Palo）是一款百度大数据团队自主研发的MPP数据库，其功能和性能已达到或超过国内外同类产品。是一个基于 MPP 架构的高性能、实时的分析型数据库，以极速易用的特点被人们所熟知，仅需亚秒级响应时间即可返回海量数据下的查询结果，不仅可以支持高并发的点查询场景，也能支持高吞吐的复杂分析场景。优点全新的向量化执行引擎亚秒级查询延时单节点每秒可处理100亿行数据。
复制链接

扫一扫