Hive介绍

Hive的作用

Hive可以将结构化的数据文件映射为一张数据库表,并提供类SQL查询功能。
其本质是将SQL转换为MapReduce/Spark的任务进行运算,底层由HDFS来提供数据的存储,可以理解为将SQL转换为MapReduce/Spark任务的工具。
hive主要用于海量数据的离线数据分析.

为什么使用hive:
1.学习MapReduce成本较高,降低学习成本
2.提高开发能力,避免书写MapReduce,减少学习成本。

hive特点:
1.可扩展:Hive可以自由扩展集群的规模,一般情况下不需要重启服务。
2.延展性:Hive支持用户自定义函数,用户可以根据自己的需求来实现自己的函数。
3.容错:良好的容错性,节点出现问题SQL仍可完成执行。

Hive的优缺点

优点:
1.操作接口采用类SQL语法,提供快速开发的能力(简单、容易上手)
2.避免写MapReduce代码,减少开发人员的学习成本
3.Hive的执行延迟比较高,因此Hive常用于数据分析,对实时性要求不高的场合
4.Hive优势在于处理大数据,对小数据没有优势,因为Hive的执行延迟比较高
5.Hive支持自定义函数,用户可以更据自己的需求来实现自己的函数。

缺点:
1.Hive的HQL表达能力有限(迭代算法无法表达;数据挖掘方面不擅长)
2.Hive效率低(hive自动生成MapReduce作业,不够智能化;hive调优比较困难,粒度较粗)

Hive与数据库的区别

1.数据更新:Hive是针对数据仓库设计的,数据仓库读多写少,所以Hive不建议对数据进行改写,所有数据都是加载后确定好的;数据库需要经常修改。
2.执行延迟:Hive在查询数据的时候吗,没有索引,需要扫描整个表。因此延迟较高。另外hive底层使用mapreduce,maprdeuce的延迟本省较高。
3.数据规模:hive支持大规模集群并行计算;数据库支持数据规模较小。

Hive内部表和外部表的区别

被external修饰的位外部表,未被修饰的是内部表(管理表)
区别:
1.内部表数据由Hive自身管理,外部表数据由HDFS管理
2.内部表的存储位置是hive.metastore.warehouse.dir(默认:/user/hive/warehouse),外部表数据的存储位置由自己指定(如果没有LOCATION,Hive将在HDFS上的/user/hive/warehouse文件夹下以外部表的表名创建一个文件夹,并将属于这个表的数据存放在这里);
3.删除内部表会直接删除元数据(metadata)及存储数据;删除外部表仅仅会删除元数据,HDFS上的文件并不会被删除。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值