作者:禅与计算机程序设计艺术
1.简介
数据湖(Data Lake)由大量非结构化、半结构化、非时序的数据汇总而成,具有海量数据的价值。数据湖存储与查询是企业利用大数据进行决策支持的一项重要功能。数据湖存储与查询可将非结构、半结构、非时序的数据在HDFS(Hadoop Distributed File System)上存储和查询,通过SQL或MapReduce的方式对数据进行分析,从而获得业务价值。本文主要介绍数据湖存储与查询的相关知识和技术。
2.基本概念术语说明
2.1 Hadoop
Hadoop是一个开源的框架,用于分布式计算和存储。它提供高容错性、高可靠性、可扩展性的存储,并可以运行MapReduce任务处理海量的数据集。Hadoop分为HDFS(Hadoop Distributed File System)和MapReduce两个模块,HDFS负责存储海量的数据,而MapReduce则用于分布式计算。
2.2 Hive
Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为数据库表,并提供SQL语句驱动的数据查询功能。Hive提供了一个类SQL语言,称为HiveQL,使得用户可以使用标准的SQL语法直接查询数据