mybatis-plus 如何查询本月数据_【DTalk实践】如何基于Impala打造海量数据交互查询系统...

本文介绍了如何利用Impala进行大数据交互查询,包括Impala在网易大数据平台的应用,以及其在数据驱动业务中的作用。文章讨论了交互查询的特点、平台选型因素,并详细阐述了Impala的架构、性能优势以及存在的问题。此外,还提出了针对Impala的改进方案和实际应用场景。
摘要由CSDN通过智能技术生成

在曾鸣老师“智能商业”这本书里经常提及的数据智能、数据产品、数据驱动业务里,比较频繁地讲了一些机器学习和数据挖掘在阿里体系内的应用。读起来很过瘾,但是真的要做到这一点,没有点硬气的技术能力,只能是“水中月,镜中花”。这里推荐网易大数据团队蒋鸿翔老师的一篇技术落地文章,对网易基于海量用户数据的业务是如何应用Impala平台做到数据驱动业务给了实际的做法,很有借鉴意义。

DTALK创办人 顾青

---以下正文----

先给几个Impala应用场景介绍,下图是网易一个部门大数据平台架构,从kafka数据到HDFS,结构化到半结构化这是数据的接入。经过数据清洗,再接入到上层,上层应用了ES存储,最上面就直接用impala来进行查询,这基本就是数据分析系统的框架。

e154790ca4c9e7f94f59725f95314346.png

2ae5bc6a67b5b62f8a57677a659980ae.png

上面是我们的一个BI数据产品,叫“网易有数”。底层也对接了impala平台,这是一个数据分析报表平台,将图表与地图上的数据进行对接。将结构化数据或非结构化数据直接写入hive,然后通过impala去感知,实现元数据同步,用户直接通过impala去查询。

需要考虑问题有元数据同步问题,ETL写入数据impala无感知,依赖元数据同步;数据实时性问题,避免大量小文件导致NN不稳定,每次写文件的batch不能太小。还有一个方案是利用kudu解决小文件问题(如下图),将实时数据往kudu里写,将kudu和hdfs实现联查,在impala上既能看到kudu的表也能看到hdfs的表。

5c5cb310a02ad2987c68a36e846dc23b.png

下面,是我在“大数据从底层处理到数据驱动业务”中分享的《基于Impala平台打造交互查询系统》的一些内容,供大家交流。

b3b95a809fa5a29fe9d0f1f8e4734510.png

cd6264a9f67b130a75cd206b474d4bee.png

以上是今天的内容大纲,第一个讲一下交互式查询的特点,在大数据平台有很多查询平台可以选择,第二个讲一下依据项目如何选择平台,选型因素是什么。第三个讲一下Impala基本介绍,以及在Impala上的改进。接下来是impala的应用场景,最后介绍下Impala底层数据流,应用场景解析以及存在的一些问题。

0219665725a01116c4c5b218cf60aa02.png

交互查询特点第一个就是数据量庞大&#x

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值