Mr.赵的专栏

正在路上的程序员...

Spark简单读写Hive

Spark版本:1.6.0
语言:Python 2.7

使用Spark写入Hive表

# --coding=utf-8--
from pyspark import SparkContext
from pyspark import SparkConf
from pyspark.sql import HiveContext
conf = SparkConf().setAppName('test')
sc = SparkContext(conf=conf)
sqlContext = HiveContext(sc)
tfile = sc.textFile(fpath)
rdd = tfile.map(your_method).map(lambda x : Row(**x)) #your_method 是自己定义的map函数
df = rdd.toDF() #转化成DataFrame

#存入Hive表中,mode有append, overwrite, error, ignore 这4种模式
df.write.saveAsTable('testtable',mode='overwrite')
filterDF=sqlContext.sql("SELECT * FROM testtable")
filterDF.show()

使用Spark读取Hive表数据

# --coding=utf-8--
from pyspark import SparkContext
from pyspark import SparkConf
from pyspark.sql import HiveContext
conf = SparkConf().setAppName('test')
sc = SparkContext(conf=conf)
sqlContext = HiveContext(sc)
filterDF=sqlContext.sql("SELECT * FROM testtable")
filterDF.show()
阅读更多
版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/u011897301/article/details/80626487
文章标签: Spark Hive
个人分类: 大数据技术
想对作者说点什么? 我来说一句

没有更多推荐了,返回首页

加入CSDN,享受更精准的内容推荐,与500万程序员共同成长!
关闭
关闭