mybatis-plus 如何查询本月数据_【DTalk实践】如何基于Impala打造海量数据交互查询系统...

最新推荐文章于 2022-08-02 23:06:56 发布

weixin_39562338

最新推荐文章于 2022-08-02 23:06:56 发布

阅读量474

点赞数

文章标签： mybatis-plus 如何查询本月数据

本文链接：https://blog.csdn.net/weixin_39562338/article/details/111701725

版权

本文介绍了如何利用Impala进行大数据交互查询，包括Impala在网易大数据平台的应用，以及其在数据驱动业务中的作用。文章讨论了交互查询的特点、平台选型因素，并详细阐述了Impala的架构、性能优势以及存在的问题。此外，还提出了针对Impala的改进方案和实际应用场景。

摘要由CSDN通过智能技术生成

在曾鸣老师“智能商业”这本书里经常提及的数据智能、数据产品、数据驱动业务里，比较频繁地讲了一些机器学习和数据挖掘在阿里体系内的应用。读起来很过瘾，但是真的要做到这一点，没有点硬气的技术能力，只能是“水中月，镜中花”。这里推荐网易大数据团队蒋鸿翔老师的一篇技术落地文章，对网易基于海量用户数据的业务是如何应用Impala平台做到数据驱动业务给了实际的做法，很有借鉴意义。

DTALK创办人顾青

---以下正文----

先给几个Impala应用场景介绍，下图是网易一个部门大数据平台架构，从kafka数据到HDFS，结构化到半结构化这是数据的接入。经过数据清洗，再接入到上层，上层应用了ES存储，最上面就直接用impala来进行查询，这基本就是数据分析系统的框架。

上面是我们的一个BI数据产品，叫“网易有数”。底层也对接了impala平台，这是一个数据分析报表平台，将图表与地图上的数据进行对接。将结构化数据或非结构化数据直接写入hive，然后通过impala去感知，实现元数据同步，用户直接通过impala去查询。

需要考虑问题有元数据同步问题，ETL写入数据impala无感知，依赖元数据同步；数据实时性问题，避免大量小文件导致NN不稳定，每次写文件的batch不能太小。还有一个方案是利用kudu解决小文件问题(如下图)，将实时数据往kudu里写，将kudu和hdfs实现联查，在impala上既能看到kudu的表也能看到hdfs的表。