-
缺点
- 高并发支持不是很友好。
- 基于hive,与hive共存亡,紧耦合。
- 社区活跃度不高 解决问题成本高。
1.1.2 应用场景
Impala不同于hive,hive底层执行使用的是MapReduce引擎,仍然是一个批处理过程。不同于hive,impala中间结果不写入磁盘,即使及时通过网络以流的形式传递,大大降低的节点的IO开销。灵活性高。在一些实时性要求很高的场景中,一方面满足实时性要求,一方面提升用户体验。
1.2 doris
1.2.1 简介
Apache Doris (incubating)(原Palo)是一款百度大数据团队自主研发的MPP数据库,其功能和性能已达到或超过国内外同类产品。是一个基于 MPP 架构的高性能、实时的分析型数据库,以极速易用的特点被人们所熟知,仅需亚秒级响应时间即可返回海量数据下的查询结果,不仅可以支持高并发的点查询场景,也能支持高吞吐的复杂分析场景 。
-
优点
- 全新的向量化执行引擎
,
亚秒级查询延时
,
单节点每秒可处理
100
亿行数据
\textcolor{Red}{全新的向量化执行引擎,亚秒级查询延时,单节点每秒可处理100亿行数据}
全新的向量化执行引擎,亚秒级查询延时,单节点每秒可处理100亿行数据
- 灵活的资源分配策略,
每秒可支持高达
3
万以上的并发查询
\textcolor{Red}{每秒可支持高达3万以上的并发查询}
每秒可支持高达3万以上的并发查询
- 支持数千用户同时进行数据分析
\textcolor{Red}{支持数千用户同时进行数据分析}
支持数千用户同时进行数据分析
- 集群运行高度自治化,故障自恢复,运维成本低
- 极简的架构,只有两类进程: fe 和be 无任何外部依赖,便于维护
- 完全国产化
\textcolor{Red}{完全国产化}
完全国产化
-
缺点
- 数据导入支持不是很友好
- 框架不够成熟 会有一些缺陷
1.2.2 应用场景
- 报表分析
- 实时看板(Dashboards)。
- 面向企业内部分析师和管理者的报表。
- 面向高并发报表分析(Customer Facing Analytics)。比如面向网站主的站点分析、面向广告主的广告报表,并发通常要求成千上万的QPS,查询延时要求毫秒级响应。
- 即席查询(Ad-hoc Query):面向分析师的自助分析,查询模式不固定,要求较高的吞吐。
- 统一数仓构建:一个平台满足统一的数据仓库建设需求,简化繁琐的大数据软件栈。基于Doris构建的统一数仓,替换了原来由Spark、Hive、Kudu、Hbase、Phoenix组成的旧架构,架构大大简化。
- 数据湖联邦查询:通过外表的方式联邦分析位于Hive、Iceberg、Hudi中的数据,在避免数据拷贝的前提下,查询性能大幅提升。
2. 功能对比
2.1 社区活跃度
- doris
- 社区很活跃 版本更新迭代很快 漏洞及时修复
- impala
- 社区不活跃 目前发现的问题 只能自己去修复 或者写脚本去修复
2.2 运维成本
- doris
- 极简的架构,只有两类进程: fe 和be 无任何外部依赖,便于维护
- impala
- 需要同时维护 impala+kudu+hdfs
2.3 并发问题
- doris
- 灵活的资源分配策略,每秒可支持高达3万以上的并发查询
- 有效支持数千用户同时进行数据分析
- impala
- 由于设计架构之处,只是为了大数据etl处理, 对并发查询支持很不友好
- 只能通过负载的方式,将查询分发的不同的工作节点,并且单节点最大查询为30
2.4 国产化问题
-
doris
- 目前由北京飞轮数据科技有限公司做开发维护
- 完全由中国工程师打造的核心基础软件
\textcolor{Red}{完全由中国工程师打造的核心基础软件}
完全由中国工程师打造的核心基础软件
- 支持各类主流国产硬件
-
impala
- Impala是国外Cloudera公司主导开发
2.5 技术支持
- doris
- 目前doris团队无偿做技术支持,问题恢复很及时。
- impala
- 目前由于cdh 闭源 要想的到母公司的技术支持 只能是通过买cdh集群后才能获得
3. 现状问题
3.1 并发问题
问题描述:
impala 中有提交大量的查询,会导致服务连接不上impala
问题原因:
由于impala 设计之初,没有考虑到并发查询,作为一个大数据处理的框架,更多的是用来做大数据离线etl数据处理。
doris 解决方案:
参考文档: doris Release 2.0.0
doris 在设计的时候,已经想到了并发的问题,目前根据官方文档的介绍 sql 查询支持三万以上支持数千用户同时查询。
3.2 运维成本高的问题
问题描述:
目前使用要做到实时读写,需要同时维护三套大数据组件 hdfs(离线数仓) kudu(实时数仓) impala(查询引擎)。
doris解决方案:
doris 本身做到的实时读写,不需要依赖于别的组件。
doris 是采用mysql 协议,可以直接当做mysql 使用。
3.3 框架问题无法修复
问题描述:
目前impala 使用下来有很多的问题 ,但是开源社区并不活跃,阿里云的技术支持也不是很熟悉impala框架,经常有解决不了的问题,只能去深度查询问题,并通过一些定时脚本去解决。
doris 解决方案:
目前doris 开发团体无偿的提供了一个技术支持的团队 支持诸葛doris 使用 有bug 会及时做修复 有问题会及时帮忙解决 会指导如何高效的使用doris。
4.性能对比
4.1 测试服务器配置
- impala
自我介绍一下,小编13年上海交大毕业,曾经在小公司待过,也去过华为、OPPO等大厂,18年进入阿里一直到现在。
深知大多数大数据工程师,想要提升技能,往往是自己摸索成长或者是报班学习,但对于培训机构动则几千的学费,着实压力不小。自己不成体系的自学效果低效又漫长,而且极易碰到天花板技术停滞不前!
因此收集整理了一份《2024年大数据全套学习资料》,初衷也很简单,就是希望能够帮助到想自学提升又不知道该从何学起的朋友。
既有适合小白学习的零基础资料,也有适合3年以上经验的小伙伴深入学习提升的进阶课程,基本涵盖了95%以上大数据开发知识点,真正体系化!
由于文件比较大,这里只是将部分目录大纲截图出来,每个节点里面都包含大厂面经、学习笔记、源码讲义、实战项目、讲解视频,并且后续会持续更新
如果你觉得这些内容对你有帮助,可以添加VX:vip204888 (备注大数据获取)
一个人可以走的很快,但一群人才能走的更远。不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人,都欢迎扫码加入我们的的圈子(技术交流、学习资源、职场吐槽、大厂内推、面试辅导),让我们一起学习成长!
是将部分目录大纲截图出来,每个节点里面都包含大厂面经、学习笔记、源码讲义、实战项目、讲解视频,并且后续会持续更新**
如果你觉得这些内容对你有帮助,可以添加VX:vip204888 (备注大数据获取)
[外链图片转存中…(img-qoSaz3BT-1712957197285)]
一个人可以走的很快,但一群人才能走的更远。不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人,都欢迎扫码加入我们的的圈子(技术交流、学习资源、职场吐槽、大厂内推、面试辅导),让我们一起学习成长!