Hive--介绍及功能

最新推荐文章于 2023-09-12 11:19:57 发布

韩家小志

最新推荐文章于 2023-09-12 11:19:57 发布

阅读量735

点赞数 2

分类专栏： hive 文章标签： hive

本文链接：https://blog.csdn.net/qq_46893497/article/details/109853832

版权

24 篇文章 6 订阅

订阅专栏

1、介绍

数据分析师不懂Java开发
开发人员不懂业务
tips：最早大数据领域只有Hadoop这个分布式存储和计算的组件用于大数据的处理：数据分析
FaceBook公司在使用Hadoop实现数据分析的时候，发现有个毛病：会做分析的人如业务人员、数据分析师，会用SQL；会用Hadoop实现分布式开发是开发人员

方案一：让开发人员教业务写代码，成本比较高
方案二：让开发人员对Hadoop做一层封装，开发一个新的程序，封装以后新的程序提供SQL接口，在新的程序中用SQL进行开发，这个程序底层自动将SQL转为MapReduce程序提交给YARN去运行。最早的Hive就诞生了

对Hadoop做了封装，提供了SQL来操作Hadoop
- 实现基于HDFS的分布式存储
- 实现基于MR和YARN的分布式计算
- 是一种特殊的Hadoop的客户端，最终的计算和存储还是由Hadoop来完成的，Hive实际上是一个翻译的角色，Hive的使用依赖于Hadoop

select 1 from 2 where 3 group by 4 having 5 order by 6 limit 7

针对一句sql：各位置的处理

总结Hive的功能
- 第一：将HDFS上文件映射成表中的数据，通过SQL来处理表，就会处理对应HDFS文件
- 第二：将SQL语句转换成MapReduce程序
- SQL -》表
- MR -》 HDFS文件
分析一下如何能实现上面的两大功能？

1       zhangsan        18      男
2       lisi            20      女

create  table info(
  id int,
  name string,
  age int,
  sex string
);

select id,name from info where id > 3 ;

id：第一列
name：第二列
map方法中分割每一行只过滤这两列，判断id是否大于3,
如果id大于3保留
小于等于3就丢弃

关注

专栏目录