目录
HIVE 介绍与原理分析
hive是Hadoop的数据仓储工具,用于存储和处理海量的结构话数据,使用sql解决mapreduce的编码问题,之前写了很多mapreduce,wordcout(单词统计)、排序、二次排序、最大值最小值、半连接、等等。对于传统的数据管理人员是困难的,而且耗时间facebook开源了一个数据仓储矿建。h可以通过sql解决mapreduce底层计算问题。当然hive底层使用的是mapreduce。那么这就意味着hive继承了mapreduce的优缺点(计算量大、延迟高)。
hive数据存储在hdfs上,可以理解为在hive上建一个表,在hdfs就形成一个目录。这个目录存储着hdfs多个数据块的位置。从而查询到数据。
1.1 hive的优缺点
1)Hive 使用类SQL 查询语法, 最大限度的实现了和SQL标准的兼容,大大降低了传统数据分析人员处理大数据的难度
2)使用JDBC 接口/ODBC接口,开发人员更易开发应用;
3)以MR 作为计算引擎、HDFS 作为存储系统,为超大数据集设计的计算/ 扩展能力;
4)统一的元数据管理(Derby、MySql等)表存在哪 数据库在哪 和SQL相关的对象都保存在哪 保存在哪 谁创建的 啥时候修改,并可与Pig 、spark等共享;
弱点:
1)Hive 的 HQL 表达的能力有限,比如不支持UPDATE、非等值连接、DELETE