Spark对HDFS上json数据的简单操作

最新推荐文章于 2024-08-02 21:00:00 发布

strongyoung88

最新推荐文章于 2024-08-02 21:00:00 发布

阅读量1.1w

点赞数 3

本文链接：https://blog.csdn.net/strongyoung88/article/details/52021758

版权

本文介绍了如何在Spark中处理HDFS上的JSON数据，包括通过Spark Shell进行交互式操作和编写Scala应用程序。示例涵盖了基于学校ID的分组、平均分计算、最大值查找以及得分筛选等操作。

摘要由CSDN通过智能技术生成

Spark对HDFS上json数据的操作非常方便，本文以两种方式进行简单介绍，分别为Spark Shell 和编写Scala应用程序。

Spark Shell

进入Spark Shell

hadoop@master:~$ spark-1.6.0-bin-hadoop2.4/bin/spark-shell

测试数据可以自己定义，随便写个几条数据即可，我就不貼出来了。

scala> val kg = sqlContext.read.json("hdfs://master:9000/test/data/knowledgeGraph/knowledgeGraph-11M.json")

JSON数据的格式如下

scala> kg.printSchema()
root
 |-- course: string (nullable = true)
 |-- courseId: string (nullable = true)
 |-- date: long (nullable = true)
 |-- grade: string (nullable = true)
 |-- gradeId: string (nullable = true)
 |-- name: string (nullable = true)
 |-- school: string (nullable = true)
 |-- schoolId: string (nullable = true)
 |-- score: double (nullable =