Doris vs Impala 性能对比_impala和doris的区别,面试大数据开发工程师会问到那些问题

  • 缺点

    • 高并发支持不是很友好。
    • 基于hive,与hive共存亡,紧耦合。
    • 社区活跃度不高 解决问题成本高。
1.1.2 应用场景

​ Impala不同于hive,hive底层执行使用的是MapReduce引擎,仍然是一个批处理过程。不同于hive,impala中间结果不写入磁盘,即使及时通过网络以流的形式传递,大大降低的节点的IO开销。灵活性高。在一些实时性要求很高的场景中,一方面满足实时性要求,一方面提升用户体验。

1.2 doris

1.2.1 简介

​ Apache Doris (incubating)(原Palo)是一款百度大数据团队自主研发的MPP数据库,其功能和性能已达到或超过国内外同类产品。是一个基于 MPP 架构的高性能、实时的分析型数据库,以极速易用的特点被人们所熟知,仅需亚秒级响应时间即可返回海量数据下的查询结果,不仅可以支持高并发的点查询场景,也能支持高吞吐的复杂分析场景 。

  • 优点

    • 全新的向量化执行引擎

    ,

    亚秒级查询延时

    ,

    单节点每秒可处理

    100

    亿行数据

    \textcolor{Red}{全新的向量化执行引擎,亚秒级查询延时,单节点每秒可处理100亿行数据}

    全新的向量化执行引擎,亚秒级查询延时,单节点每秒可处理100亿行数据

    • 灵活的资源分配策略,

    每秒可支持高达

    3

    万以上的并发查询

    \textcolor{Red}{每秒可支持高达3万以上的并发查询}

    每秒可支持高达3万以上的并发查询

    • 支持数千用户同时进行数据分析

    \textcolor{Red}{支持数千用户同时进行数据分析}

    支持数千用户同时进行数据分析

    • 集群运行高度自治化,故障自恢复,运维成本低
    • 极简的架构,只有两类进程: fe 和be 无任何外部依赖,便于维护
    • 完全国产化

    \textcolor{Red}{完全国产化}

    完全国产化

  • 缺点

    • 数据导入支持不是很友好
    • 框架不够成熟 会有一些缺陷
1.2.2 应用场景
  • 报表分析
    • 实时看板(Dashboards)。
    • 面向企业内部分析师和管理者的报表。
    • 面向高并发报表分析(Customer Facing Analytics)。比如面向网站主的站点分析、面向广告主的广告报表,并发通常要求成千上万的QPS,查询延时要求毫秒级响应。
  • 即席查询(Ad-hoc Query):面向分析师的自助分析,查询模式不固定,要求较高的吞吐。
  • 统一数仓构建:一个平台满足统一的数据仓库建设需求,简化繁琐的大数据软件栈。基于Doris构建的统一数仓,替换了原来由Spark、Hive、Kudu、Hbase、Phoenix组成的旧架构,架构大大简化。
  • 数据湖联邦查询:通过外表的方式联邦分析位于Hive、Iceberg、Hudi中的数据,在避免数据拷贝的前提下,查询性能大幅提升。

2. 功能对比

2.1 社区活跃度

  • doris
    • 社区很活跃 版本更新迭代很快 漏洞及时修复
  • impala
    • 社区不活跃 目前发现的问题 只能自己去修复 或者写脚本去修复

2.2 运维成本

  • doris
    • 极简的架构,只有两类进程: fe 和be 无任何外部依赖,便于维护
  • impala
    • 需要同时维护 impala+kudu+hdfs

2.3 并发问题

  • doris
    • 灵活的资源分配策略,每秒可支持高达3万以上的并发查询
    • 有效支持数千用户同时进行数据分析
  • impala
    • 由于设计架构之处,只是为了大数据etl处理, 对并发查询支持很不友好
    • 只能通过负载的方式,将查询分发的不同的工作节点,并且单节点最大查询为30

2.4 国产化问题

  • doris

    \textcolor{Red}{完全由中国工程师打造的核心基础软件}

    完全由中国工程师打造的核心基础软件

    • 支持各类主流国产硬件
  • impala

    • Impala是国外Cloudera公司主导开发

2.5 技术支持

  • doris
    • 目前doris团队无偿做技术支持,问题恢复很及时。
  • impala
    • 目前由于cdh 闭源 要想的到母公司的技术支持 只能是通过买cdh集群后才能获得

3. 现状问题

3.1 并发问题

问题描述:

​ impala 中有提交大量的查询,会导致服务连接不上impala

问题原因:

​ 由于impala 设计之初,没有考虑到并发查询,作为一个大数据处理的框架,更多的是用来做大数据离线etl数据处理。

doris 解决方案:

​ 参考文档: doris Release 2.0.0

​ doris 在设计的时候,已经想到了并发的问题,目前根据官方文档的介绍 sql 查询支持三万以上支持数千用户同时查询。

3.2 运维成本高的问题

问题描述:

​ 目前使用要做到实时读写,需要同时维护三套大数据组件 hdfs(离线数仓) kudu(实时数仓) impala(查询引擎)。

doris解决方案:

​ doris 本身做到的实时读写,不需要依赖于别的组件。

​ doris 是采用mysql 协议,可以直接当做mysql 使用。

3.3 框架问题无法修复

问题描述:

​ 目前impala 使用下来有很多的问题 ,但是开源社区并不活跃,阿里云的技术支持也不是很熟悉impala框架,经常有解决不了的问题,只能去深度查询问题,并通过一些定时脚本去解决。

doris 解决方案:

​ 目前doris 开发团体无偿的提供了一个技术支持的团队 支持诸葛doris 使用 有bug 会及时做修复 有问题会及时帮忙解决 会指导如何高效的使用doris。

4.性能对比

4.1 测试服务器配置

  • impala

自我介绍一下,小编13年上海交大毕业,曾经在小公司待过,也去过华为、OPPO等大厂,18年进入阿里一直到现在。

深知大多数大数据工程师,想要提升技能,往往是自己摸索成长或者是报班学习,但对于培训机构动则几千的学费,着实压力不小。自己不成体系的自学效果低效又漫长,而且极易碰到天花板技术停滞不前!

因此收集整理了一份《2024年大数据全套学习资料》,初衷也很简单,就是希望能够帮助到想自学提升又不知道该从何学起的朋友。
img
img
img
img
img

既有适合小白学习的零基础资料,也有适合3年以上经验的小伙伴深入学习提升的进阶课程,基本涵盖了95%以上大数据开发知识点,真正体系化!

由于文件比较大,这里只是将部分目录大纲截图出来,每个节点里面都包含大厂面经、学习笔记、源码讲义、实战项目、讲解视频,并且后续会持续更新

如果你觉得这些内容对你有帮助,可以添加VX:vip204888 (备注大数据获取)
img

一个人可以走的很快,但一群人才能走的更远。不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人,都欢迎扫码加入我们的的圈子(技术交流、学习资源、职场吐槽、大厂内推、面试辅导),让我们一起学习成长!

是将部分目录大纲截图出来,每个节点里面都包含大厂面经、学习笔记、源码讲义、实战项目、讲解视频,并且后续会持续更新**

如果你觉得这些内容对你有帮助,可以添加VX:vip204888 (备注大数据获取)
[外链图片转存中…(img-qoSaz3BT-1712957197285)]

一个人可以走的很快,但一群人才能走的更远。不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人,都欢迎扫码加入我们的的圈子(技术交流、学习资源、职场吐槽、大厂内推、面试辅导),让我们一起学习成长!

  • 29
    点赞
  • 30
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值