62、Spark SQL之DataFrame的使用

Spark SQL and DataFrame引言

Spark SQL是Spark中的一个模块,主要用于进行结构化数据的处理。它提供的最核心的编程抽象,就是DataFrame。同时Spark SQL还可以作为分布式的SQL查询引擎。Spark SQL最重要的功能之一,就是从Hive中查询数据。
DataFrame,可以理解为是,以列的形式组织的,分布式的数据集合。它其实和关系型数据库中的表非常类似,但是底层做了很多的优化。DataFrame可以通过很多来源进行构建,包括:结构化的数据文件,Hive中的表,外部的关系型数据库,以及RDD。

SQLContext

要使用Spark SQL,首先就得创建一个创建一个SQLContext对象,或者是它的子类的对象,比如HiveContext的对象。
Java版本

        SparkConf conf = new SparkConf().setAppName("DataFrameCreateJava").setMaster("local");
        JavaSparkContext sparkContext = new JavaSparkContext(conf);
        SQLContext sqlContext = new SQLContext(sparkContext);

Scala版本

val conf = new SparkConf().setMaster("local").setAppName("DataFrameCreateScala")
    val sparkContext = new SparkContext(conf)
    val sqlContext = new SQLContext(sparkContext)

HiveContext

除了基本的SQLContext以外,还可以使用它的子类——HiveContext。HiveContext的功能除了包含SQLContext提供的所有功能之外,还包括了额外的专门针对Hive的一些功能。这些额外功能包括:使用HiveQL语法来编写和执行SQL,使用Hive中的UDF函数,从Hive表中读取数据。
要使用HiveContext,就必须预先安装好Hive,SQLContext支持的数据源,HiveContext也同样支持——而不只是支持Hive。对于Spark 1.3.x以上的版本,都推荐使用HiveContext,因为其功能更加丰富和完善。
Spark SQL还支持用spark.sql.dialect参数设置SQL的方言。使用SQLContext的setConf()即可进行设置。对于SQLContext,它只支持“sql”一种方言。对于HiveContext,它默认的方言是“hiveql”。

创建DataFrame

使用SQLContext,可以从RDD、Hive表或者其他数据源,来创建一个DataFrame。以下是一个使用JSON文件创建DataFrame的例子:
Java版本

public class DataFrameCreate {
    public static void main(String[] args) {
        SparkConf conf = new SparkConf().setAppName("DataFrameCreateJava").setMaster("local");
        JavaSparkContext sparkContext = new JavaSparkContext(conf);
        SQLContext sqlContext = new SQLContext(sparkContext);
        DataFrame df = sqlContext.read().json("hdfs://hadoop-100:9000/sql/students.json");

        df.show();
    }
}

Scala版本

object DataFrameCreate {

  def main(args: Array[String]): Unit = {
    val conf = new SparkConf().setMaster("local").setAppName("DataFrameCreateScala")
    val sparkContext = new SparkContext(conf)
    val sqlContext = new SQLContext(sparkContext)
    val dataFrame = sqlContext.read.json("hdfs://hadoop-100:9000/sql/students.json")
    dataFrame.show()
  }
}

DataFrame的常用操作

Java版本

public class DataFrameOperator {
    public static void main(String[] args) {
        SparkConf conf = new SparkConf().setAppName("DataFrameOperatorJava").setMaster("local");
        JavaSparkContext sparkContext = new JavaSparkContext(conf);
        SQLContext sqlContext = new SQLContext(sparkContext);
        // 创建DataFrame
        // 创建出来的DataFrame完全可以理解为一张表
        DataFrame df = sqlContext.read().json("hdfs://hadoop-100:9000/sql/students.json");

        // 打印DataFrame中所有的数据(select * from ...)
        df.show();
        // 打印DataFrame的元数据(Schema)
        df.printSchema();
        // 查询某列所有的数据
        df.select("name").show();
        // 查询某几列所有的数据,并对列进行计算
        df.select(df.col("name"), df.col("age").plus(1)).show();
        // 根据某一列的值进行过滤
        df.filter(df.col("age").gt(18)).show();
        // 根据某一列进行分组,然后进行聚合
        df.groupBy(df.col("age")).count().show();
    }
}

Scala版本

object DataFrameOperator {
  def main(args: Array[String]): Unit = {
    val conf = new SparkConf().setMaster("local").setAppName("DataFrameOperatorScala")
    val sparkContext = new SparkContext(conf)
    val sqlContext = new SQLContext(sparkContext)
    val df = sqlContext.read.json("hdfs://hadoop-100:9000/sql/students.json")

    // 打印DataFrame中所有的数据(select * from ...)
    df.show()
    // 打印DataFrame的元数据(Schema)
    df.schema
    // 查询某列所有的数据
    df.select(df.col("name")).show()
    df.select(df.col("age")).show()
    // 查询某几列所有的数据,并对列进行计算
    df.select(df.col("name"),df.col("age").plus(1)).show()
    // 根据某一列的值进行过滤
    df.select(df.col("age").gt(18)).show()
    // 根据某一列进行分组,然后进行聚合
    df.groupBy(df.col("age")).count().show()
  }
}

备注,students.json数据如下

{"id":1, "name":"leo", "age":18}
{"id":2, "name":"jack", "age":19}
{"id":3, "name":"marry", "age":17}
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值