网上关于spark-sql的资料很少,刚开始用spark-sql cli时我也好奇怎么还能使用这样的方式?下面就自己试了一下,
如果你看到这个文章,你会发现跟不用搭建,可能你只是不知到入口,在集群上启动很简单,进到spark/bin目录下面执行spark-sql,和spark-shell完全相同,这个是在集群中的一台设备上执行的
但是有些公司是用spark-sql client模式开发的,不是给你一个节点的服务器,那怎么重现;
其实用spark-sql cli模式很简单,
1.启动spark集群和其他服务,
2.选择集群中的一个节点,kill全部jps查看到的进程
3.在spark/bin目录下面直接启动spark-sql 就可以正常访问,当前服务器相当于一集群的客户端
到现在应该已经理解了,spark-sql 单独启动虽然不需要启动hive,hadoop等服务,但是其环境变量和配置还是需要的,spark-sql启动后会将相关配置上传到集群。spark集群需要的hive和hadoop等安装包也要安装好,并且配置和集群配置一样,可以理解成复制集群一个节点出来。就这么简单!