sparksql读hdfs数据

最新推荐文章于 2023-05-25 11:13:00 发布

95简简丹丹

最新推荐文章于 2023-05-25 11:13:00 发布

阅读量1.5k

点赞数

分类专栏： spark

本文链接：https://blog.csdn.net/sdd_95/article/details/108026871

版权

spark 专栏收录该内容

1 篇文章 0 订阅

订阅专栏

通过pyspark模块，调用sparksql，读取hdfs目录数据，然后做统计。

参考：pyspark读取hdfs, python sparksql函数

from pyspark.sql import SQLContext
sc = SparkContext()
sqlcontext = SQLContext(sc)
#format后面为告诉程序读取csv格式,load后面为hdfs地址,hdfs后面跟着hadoop的名字,然后文件目录(这块有点懵,如果报错,跟着报错查修)
data = sqlcontext.read.format("com.databricks.spark.csv").\
    options(header="true",inferschema="true").\
    load("hdfs://cdsw1.richstone.com/test1/5min.csv")
data.show(5)

优惠劵

95简简丹丹

关注关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
sparksql读hdfs数据

通过pyspark模块，调用sparksql，读取hdfs目录数据，然后做统计。参考：pyspark读取hdfs, python sparksql函数from pyspark.sql import SQLContextsc = SparkContext()sqlcontext = SQLContext(sc)#format后面为告诉程序读取csv格式,load后面为hdfs地址,hdfs后面跟着hadoop的名字,然后文件目录(这块有点懵,如果报错,跟着报错查修)data = sqlcon
复制链接

扫一扫