spark +hive+hbase+hadoop

前言:

hive:数据仓库
hbase:分布式nosql数据库
haoop:分布式文件系统
spark:分布式内存计算系统
这个四个结合(当然少不了zookeeper)简直完美。当然有完美就有不和谐,
各组件缺点如下:
1. hive的底层计算是mapreduce,计算太慢
2. hbase 是一个nosql数据库,对sql用户不友好。
3. spark计算结果是内存中,最终是要落地的。
4. hadoop 只是一个文件系统。
组件结合在一起就起到了化学反应。
1. hive计算慢 被spark sql解决,spark sql完全支持hql,只用到hive的metastore。
2. hbase对sql不友好,hive 的hql解决,将hbase列表映射到hive表。
3. spark 的计算结果直接存在hive中
4. hbase 和hive都在hadoop 上的服务。

整合spark +hive+hbase+hadoop

前提:以上4个组件已经成功安装,如果没有安装,建议使用ambari。
下面将4个组件进行整合,然后进行表的创建、查询、插入、删除等基础操作。
以数据分析引擎为例子:

  1. 启动spark 的thriftserver服务
    spark sql 已经把hive2进行重写,然后同样提供了thriftserver服务。这样可以方便第三方应用可以通过jdbc/odbc,如同操作mysql数据库一样,进行数据分析
root/spark-2.1.1-bin-hadoop2.7/sbin/./start-thriftserver.sh --master yarn --deploy-mode client --queue offline
 --jars /root/apache-hive-2.3.0-bin/lib/hive-hbase-handler-2.3.0.jar,/root/hbase-1.3.1/lib/hbase-protocol-1.3.1.jar,/root/hbase-1.3.1/lib/hbase-server-1.3.1.ja
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值