spark +hive+hbase+hadoop

最新推荐文章于 2023-05-31 09:51:56 发布

freshghost1234

最新推荐文章于 2023-05-31 09:51:56 发布

阅读量554

点赞数

分类专栏：大数据-应用-数据挖掘文章标签： spark hbase hive

本文链接：https://blog.csdn.net/qq_34969081/article/details/78934787

版权

前言：

hive:数据仓库
hbase:分布式nosql数据库
haoop:分布式文件系统
spark:分布式内存计算系统
这个四个结合(当然少不了zookeeper)简直完美。当然有完美就有不和谐，
各组件缺点如下：
1. hive的底层计算是mapreduce,计算太慢
2. hbase 是一个nosql数据库，对sql用户不友好。
3. spark计算结果是内存中，最终是要落地的。
4. hadoop 只是一个文件系统。
组件结合在一起就起到了化学反应。
1. hive计算慢被spark sql解决,spark sql完全支持hql，只用到hive的metastore。
2. hbase对sql不友好,hive 的hql解决，将hbase列表映射到hive表。
3. spark 的计算结果直接存在hive中
4. hbase 和hive都在hadoop 上的服务。

整合spark +hive+hbase+hadoop

前提：以上4个组件已经成功安装，如果没有安装，建议使用ambari。
下面将4个组件进行整合，然后进行表的创建、查询、插入、删除等基础操作。
以数据分析引擎为例子：

启动spark 的thriftserver服务
spark sql 已经把hive2进行重写，然后同样提供了thriftserver服务。这样可以方便第三方应用可以通过jdbc/odbc，如同操作mysql数据库一样，进行数据分析

root/spark-2.1.1-bin-hadoop2.7/sbin/./start-thriftserver.sh --master yarn --deploy-mode client --queue offline
 --jars /root/apache-hive-2.3.0-bin/lib/hive-hbase-handler-2.3.0.jar,/root/hbase-1.3.1/lib/hbase-protocol-1.3.1.jar,/root/hbase-1.3.1/lib/hbase-server-1.3.1.ja