sparksql读hdfs数据
通过pyspark模块,调用sparksql,读取hdfs目录数据,然后做统计。参考:pyspark读取hdfs, python sparksql函数from pyspark.sql import SQLContextsc = SparkContext()sqlcontext = SQLContext(sc)#format后面为告诉程序读取csv格式,load后面为hdfs地址,hdfs后面跟着hadoop的名字,然后文件目录(这块有点懵,如果报错,跟着报错查修)data = sqlcon
原创
2020-08-15 19:06:56 ·
1529 阅读 ·
0 评论