Spark简单读写Hive

最新推荐文章于 2024-08-04 00:33:27 发布

云中的鱼

最新推荐文章于 2024-08-04 00:33:27 发布

阅读量4.5k

点赞数

分类专栏：大数据技术文章标签： Spark Hive

本文链接：https://blog.csdn.net/u011897301/article/details/80626487

版权

本文介绍了如何在Spark 1.6.0中使用Python 2.7进行Hive表的读写操作。首先讲解了如何利用Spark将数据写入Hive表，接着阐述了读取Hive表数据的方法，为Spark与Hive的数据交互提供了基础指导。

摘要由CSDN通过智能技术生成

Spark版本：1.6.0
语言：Python 2.7

使用Spark写入Hive表

# --coding=utf-8--
from pyspark import SparkContext
from pyspark import SparkConf
from pyspark.sql import HiveContext
conf = SparkConf().setAppName('test')
sc = SparkContext(conf=conf)
sqlContext = HiveContext(sc)
tfile = sc.textFile(fpath)
rdd = tfile.map(your_method).map(lambda x : Row(**x)) #your_method 是自己定义的map函数
df = rdd.toDF() #转化成DataFrame

#存入Hive表中，mode有append, overwrite, error, ignore