Hive学习笔记1

最新推荐文章于 2023-06-09 17:03:17 发布

N8023

最新推荐文章于 2023-06-09 17:03:17 发布

阅读量297

点赞数

文章标签： hive 大数据学习笔记

第一章 Hive基本概念

**
1.1什么是hive
hive是基于hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张表，并提供类SQL查询功能。
本质是：将HQL转化为mapreduce程序，如下图所示：
在这里插入图片描述
（1）hive处理的数据存储在HDFS
（2）hive分析数据底层的实现是MapReduce
（3）执行程序运行在yarn上
1.2hive的优缺点
1.2.1 优点
（1）操作接口采用类SQL语法，提供快速开发的能力
（2）避免了去写MapReduce，减少开发人员的学习成本
（3）hive的执行延迟比较高，因此hive常用于数据分析，对实时性要求不高的场合
（4）hive优势在于处理大数据，对于处理小数据没有优势，因为hive执行延迟高
（5）hive支持用户自定义函数，用户可以根据自己的需求来实现自己的函数。
1.2.2 缺点
（1）HQL表达能力有限，迭代式算法无法表达，数据挖掘方面不擅长
（2）效率低，hive自动生成的MapReduce作业，通常情况下不够智能化；hive调优比较困难，粒度较粗。
1.3hive与数据仓库对比
查询语言：类SQL,唯一的相似点；
数据存储位置：hdfs，本地系统；
数据更新：hive读多写少，mysql增删改查；
索引：hive不支持索引，暴力扫描整个数据；
执行：通过hadoop提供的MapReduce来实现，数据库通常有自己的执行引擎；
执行延迟：hive高延迟；
可扩展性：hive的可扩展性好；数据规模：hive数据规模大吖。