pyspark 本地远程连接hive

最新推荐文章于 2024-05-30 08:45:35 发布

小哇666

最新推荐文章于 2024-05-30 08:45:35 发布

阅读量2.5k

点赞数

分类专栏： # spark 文章标签： spark python pyspark hive

本文链接：https://blog.csdn.net/qq_41712271/article/details/116991415

版权

spark 专栏收录该内容

76 篇文章 0 订阅

订阅专栏

#配置本地spark的环境，必须放在最前面
import findspark
findspark.init()
print(findspark.find())

from pyspark.sql import SparkSession

#新建sparksession
sparksession = SparkSession.builder.master("local[*]").appName("hive_test_1") \
    .config("hive.metastore.uris","thrift://158.158.4.49:9083") \
    .enableHiveSupport().getOrCreate()

#从hive读数据
sql_1="select * from test.biao_4"
df1 = sparksession.sql(sql_1)
df1.show()

#数据写入到hive中
df2 = sparksession.createDataFrame((
    (1, "asf"),
    (2, "2143"),
    (3, "rfds")
)).toDF("label", "sentence")
df2.write.mode("overwrite").saveAsTable("test.biao_6")

有些文章说，需要hdfs，hive的xml文件到项目中，奇怪，本人测试都不需要，非常轻松，比java spark本地操作hive要简单的多
java spark本地操作hive可查看博文
https://blog.csdn.net/qq_41712271/article/details/103206827

小哇666

关注

0
点赞
踩
13

收藏

觉得还不错? 一键收藏
2
评论
pyspark 本地远程连接hive

#配置本地spark的环境，必须放在最前面import findsparkfindspark.init()print(findspark.find())from pyspark.sql import SparkSession#新建sparksessionsparksession = SparkSession.builder.master("local[*]").appName("hive_test_1") \ .config("hive.metastore.uris","thrif.
复制链接

扫一扫

专栏目录