Spark对HDFS上json数据的简单操作

本文介绍了如何在Spark中处理HDFS上的JSON数据,包括通过Spark Shell进行交互式操作和编写Scala应用程序。示例涵盖了基于学校ID的分组、平均分计算、最大值查找以及得分筛选等操作。
摘要由CSDN通过智能技术生成

Spark对HDFS上json数据的操作非常方便,本文以两种方式进行简单介绍,分别为Spark Shell 和 编写Scala应用程序。

Spark Shell

进入Spark Shell

hadoop@master:~$ spark-1.6.0-bin-hadoop2.4/bin/spark-shell

测试数据可以自己定义,随便写个几条数据即可,我就不貼出来了。

scala> val kg = sqlContext.read.json("hdfs://master:9000/test/data/knowledgeGraph/knowledgeGraph-11M.json")

JSON数据的格式如下

scala> kg.printSchema()
root
 |-- course: string (nullable = true)
 |-- courseId: string (nullable = true)
 |-- date: long (nullable = true)
 |-- grade: string (nullable = true)
 |-- gradeId: string (nullable = true)
 |-- name: string (nullable = true)
 |-- school: string (nullable = true)
 |-- schoolId: string (nullable = true)
 |-- score: double (nullable = 
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值