项目第七天——学习Hive相关知识
Hive是一个基于Hadoop的开源数据仓库工具,用于存储和处理海量结构化数据。它是Facebook 2008年8月开源的一个数据仓库框架,提供了类似于SQL语法的HQL(hiveSQL)语句作为数据访问接口。
使用Hive的原因:Hive 使用类SQL 查询语法, 最大限度的实现了和SQL标准的兼容,大大降低了传统数据分析人员处理大数据的难度。
以MR 作为计算引擎(也可选择Spark计算引擎)、HDFS 作为存储系统,为超大数据集设计的计算/ 扩展能力。
Hive服务端组件:Driver组件, Metastore组件,HiveServer2服务。
客户端组件:CLI,JDBC/ODBC,WEBGUI。
表分类:内部表,外部表,分区表,分桶表。