在曾鸣老师“智能商业”这本书里经常提及的数据智能、数据产品、数据驱动业务里,比较频繁地讲了一些机器学习和数据挖掘在阿里体系内的应用。读起来很过瘾,但是真的要做到这一点,没有点硬气的技术能力,只能是“水中月,镜中花”。这里推荐网易大数据团队蒋鸿翔老师的一篇技术落地文章,对网易基于海量用户数据的业务是如何应用Impala平台做到数据驱动业务给了实际的做法,很有借鉴意义。
DTALK创办人 顾青
---以下正文----
先给几个Impala应用场景介绍,下图是网易一个部门大数据平台架构,从kafka数据到HDFS,结构化到半结构化这是数据的接入。经过数据清洗,再接入到上层,上层应用了ES存储,最上面就直接用impala来进行查询,这基本就是数据分析系统的框架。
上面是我们的一个BI数据产品,叫“网易有数”。底层也对接了impala平台,这是一个数据分析报表平台,将图表与地图上的数据进行对接。将结构化数据或非结构化数据直接写入hive,然后通过impala去感知,实现元数据同步,用户直接通过impala去查询。
需要考虑问题有元数据同步问题,ETL写入数据impala无感知,依赖元数据同步;数据实时性问题,避免大量小文件导致NN不稳定,每次写文件的batch不能太小。还有一个方案是利用kudu解决小文件问题(如下图),将实时数据往kudu里写,将kudu和hdfs实现联查,在impala上既能看到kudu的表也能看到hdfs的表。
下面,是我在“大数据从底层处理到数据驱动业务”中分享的《基于Impala平台打造交互查询系统》的一些内容,供大家交流。
以上是今天的内容大纲,第一个讲一下交互式查询的特点,在大数据平台有很多查询平台可以选择,第二个讲一下依据项目如何选择平台,选型因素是什么。第三个讲一下Impala基本介绍,以及在Impala上的改进。接下来是impala的应用场景,最后介绍下Impala底层数据流,应用场景解析以及存在的一些问题。
交互查询特点第一个就是数据量庞大&#x