Hive学习之Hive基本概念及实践

33 篇文章 17 订阅 ¥9.90 ¥99.00
32 篇文章 31 订阅 ¥9.90 ¥99.00
本文介绍了Hive作为基于Hadoop的数据仓库,其主要功能包括数据汇总、分析和查询,使用HiveQL进行SQL-like查询。尽管Hive具有较高的查询延迟,不适合实时查询,但它通过数据库、表、分区和桶的概念优化大数据处理。分区和桶能有效减少查询处理的数据量,提高分析速度。文中还展示了通过Hive CLI创建表、分区的实际操作,并解释了HDFS上的存储结构。
摘要由CSDN通过智能技术生成

       Hive是基于Hadoop的数据仓库,而Hadoop为数据的存储和处理提供了很强的水平扩展和容错功能。Hive能够轻松地汇总数据,特定查询和分析大数据,提供了简单的查询语言HiveQL,该语言基于SQL,这使得熟悉SQL的用户可以执行特定查询,容易得汇总和分析数据。同时Hive QL允许map/reduce程序员能够插入定制的mapper和reducer去执行更加复杂的分析,HiveQL的内建功能可能并不支持这些复杂的分析。

      Hadoop是一个批处理系统,运行在Hadoop上的作业常常有较高的延迟并且在作业的提交和调度时出现大量的开销。这些导致了Hive查询的延迟往往会很高(分钟),即使数据集非常小(几百兆),因为Hive是建立在Hadoop之上的。所以Hive是不够与Oracle之类的系统相比较的,在Oracle中数据分析是建立在非常小的数据上的,但是分析进行更多次数的迭代,迭代之间的响应时间不超过几分钟。Hive的目标是在小数据集上进行交互式数据浏览、查询或者测试查询时提供可以接受的(不是最佳的)延迟。Hive不适于在线交易处理,也不提供实时查询和行级更新,最好用于不可修改的大数据集上的批量作业,比如web日志。

      按照粒度大小的次序,Hive中的数据被组织为:

  • 数据库:分隔表等数据单元,防止命名冲突的命名空间。
  • 表:拥有相同Schema的同类数据单元。例如表page_views,该表的每行可以包含下面的列(schema):
    • Timestamp:INT类型,对应页面被浏览时的Unix时间戳。
    •  Userid:BIGINT类型&
  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

skyWalker_ONLY

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值