Spark从HDFS上读取JSON数据

最新推荐文章于 2022-12-15 16:41:45 发布

weixin_34168880

最新推荐文章于 2022-12-15 16:41:45 发布

阅读量708

点赞数

文章标签： json 大数据 scala

代码如下：

import org.apache.spark.sql.Row;
import org.apache.spark.SparkConf;
import org.apache.spark.api.java.JavaRDD;
import org.apache.spark.api.java.JavaSparkContext;
import org.apache.spark.api.java.function.VoidFunction;
import org.apache.spark.sql.DataFrame;
import org.apache.spark.sql.SQLContext;


public class QueryHDFSData {
    static SparkConf sparkConf = new SparkConf().setAppName("HDFSQuery").setMaster("local[2]");
    static JavaSparkContext sc = new JavaSparkContext(sparkConf);
    static SQLContext sqlContext = new SQLContext(sc);
    public static void main(String[] args){
//        JavaRDD<String> poi = sc.textFile("hdfs://node2:9000/user/flume/events/2015-11-27-21/events-.1448629506841");
        DataFrame df = sqlContext.read().json("hdfs://node2:9000/user/flume/events/2015-11-26-21/events-.1448543965316");
        // 打印模式
        df.printSchema();
        // 将数据框架注册成一个表
        df.registerTempTable("poi");
        // 使用sql语句从表中读取数据
        DataFrame poi = sqlContext.sql("SELECT * FROM poi WHERE cid=57425749418");
        JavaRDD<Row> row = poi.javaRDD();
        row.foreach(new VoidFunction<Row>(){
            @Override
            public void call(Row r) throws Exception {
                System.out.println(r.mkString());        
            }
            
        });
    }
}

weixin_34168880

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
Spark从HDFS上读取JSON数据

代码如下：import org.apache.spark.sql.Row;import org.apache.spark.SparkConf;import org.apache.spark.api.java.JavaRDD;import org.apache.spark.api.java.JavaSparkContext;import org.apache.spark.ap...
复制链接

扫一扫