1、在linux环境下,切换到spark下的sbin目录中,输入
./start-all.sh
启动spark集群。同时,切换到spark的bin目录下,通过
./spark-shell
切换到scala下。
2、输入以下指令,导入SparkSession对象
import org.apache.spark.sql.SparkSession
3、输入以下指令,使支持rdds转换为dataframes及后续的sql操作
import spark.implicits._
4、创建sparksession对象
val session=SparkSession.builder().getOrCreate();
5、通过SparkSession对象,读取文件
val stuframe=session.read.json("file:///home/yaozhen/stu.json");
6、调用show()方法,查看所有数据
stuframe.show();
+-------+--------+
|stu_age|stu_name|
+-------+--------+
| 32| zhang|
| 18| wang|
+-------+--------+
7、或者可以使用select()方法,也可以查看部分数据或者所有的数据
stuframe.select(stuframe("stu_name")).show();
+--------+
|stu_name|
+--------+
| zhang|
| wang|
+--------+