Hive的基本概念?
1.hive是由Facebook开源用于解决海量结构化日志的数据统计;
2.hive是一个基于hadoop的数据库工具,可以将结构化数据映射成一张数据表,并提供类SQL的查询功能.
3.hive的本质是将SQL语句转化成MapReduce程序;
Hive的意义是什么?
背景:hadoop是个好东西,但是学习难度大,成本高,坡度陡
意义(目的):降低程序员使用hadoop的难度.降低学习成本.
Hive的作用
1.把SQL语句转化成mapreduce代码
2.可以对数据进行存储 存储使用 HDFS
3.可以对数据进行计算 计算使用 MapReduce
直接使用hadoop所面临的问题
1.人员成本太高
2.项目周期要求太短
3.MapReduce 实现复杂查询逻辑开发难度太大
为什么要使用Hive
1.操作接口内SQL语法,提供快速开发的能力.
2.避免了去写MapReduce,减少开发人员的学习成本.
3.功能扩展很方便.
Hive的特点
1.扩展性
Hive 可以自由的扩展集群规模,一般情况下不需要重启服务
和集群的扩展性相同
2.延展性
Hive 支持用户自定义函数,用户可以根据自己的需求来实现自己的函数.
3.容错性
良好的容错性,节点出现问题SQL仍可完成执行.