window pycharm下用spark连接hive操作数据
一、
- 在/opt/soft/spark234/conf下导入hive-site.xml
二、
- 把mysql的驱动包mysql-connector-java-5.1.38.jar拖入/opt/soft/spark234/jars
三、
- sbin下 ./start-all.sh 启动spark服务
- bin下 ./pyspark 开启软件
四、
-
执行命令 df = spark.sql(“select * from dws_events.dws_temp_uf_infos
limit 3”); df.show() -
成功表示:Linux下spark连接hive成功
五、
- window下解压spark包
- 在linux下的conf下内容全部拷贝到window下的conf中
- 把conf下的hive-site.xml中的地址改成虚拟机的地址 在jar包中导入mysql驱动(mysql-connector-java-5.1.38.jar)
六、
- window下配置环境变量
- 创建
SPARK_HOME
E:\spark-2.3.4-bin-hadoop2.6 配置path路径 - path下 %SPARK_HOME%\bin
七、
- 跳过第六步 可以通过参数设置
.config(“hive.metastore.uris”,“thrift://192.168.133.195:9083”)
八、
配置环境变量方式代码如下: