1. 在Spark客户端配置spark On hive
在Spark客户端安装包下spark-2.3.1/conf中创建文件hive-site.xml:
配置hive的metastore路径
<configuration>
<property>
<name>hive.metastore.uris</name>
<value>thrift://node1:9083</value>
</property>
</configuration>
2. 启动Hive的metastore服务
hive --service metastore &
3. 启动zookeeper集群,启动HDFS集群。
4. 启动SparkShell 读取Hive中的表总数,对比hive中查询同一表查询总数测试时间。
./spark-shell
--master spark://node1:7077
spark.sql("select * from day_table").show;
- 注意:
如果使用Spark on Hive 查询数据时,出现错误:
找不到HDFS集群路径,要在客户端机器conf/spark-env.sh中设置HDFS的路径: