实现原理:
客户端(java程序)与thriftServer连接,thriftServer再代理客户端转换成spark的操作流程,再加载hive的数据到spark的worker节点,并运行Map-Reduce作业。这里只是个小案例,和大家一起来探讨一下原理。
步骤:
分发三个配置文件hdfs-site.xml、core-site.xml、hive-site.xml到所有worker节点 ==>在有关的库下创建hive的数据表 ==>
加载数据到hive表中 ==>
启动hdfs(如果有数据存放在hadoop集群的数据节点) ==>
启动spark集群(建议启动模式:完全分布式)==>
启动thriftserver服务器 ==>
运行java代码。
[centos&#