spark和flume整合

最新推荐文章于 2024-06-28 22:13:28 发布

cyclebozhou

最新推荐文章于 2024-06-28 22:13:28 发布

阅读量1.6k

点赞数 1

分类专栏： spark

本文链接：https://blog.csdn.net/qq_40359681/article/details/79519757

版权

spark 专栏收录该内容

14 篇文章 0 订阅

订阅专栏

本文介绍了在Spark SQL中如何将RDD转换为DataFrame的两种方法。第一种是通过反射推断Schema，适用于已知RDD schema的情况。第二种是通过StructType直接指定Schema，适用于运行时动态创建DataFrame。详细步骤包括创建包含Row对象的RDD、构造匹配的StructType及使用sparkSession创建DataFrame。

摘要由CSDN通过智能技术生成

软件版本:spark2.02
开发环境:idea,maven
maven依赖:

   <properties>
        <scala.version>2.11.8</scala.version>
        <hadoop.version>2.7.4</hadoop.version>
        <spark.version>2.0.2</spark.version>
    </properties>
    <dependencies>
        <dependency>
            <groupId>org.scala-lang</groupId>
            <artifactId>scala-library</artifactId>
            <version>${scala.version}</version>
        </dependency>
        <dependency>
            <groupId>org.apache.spark</groupId>
            <artifactId>spark-core_2.11</artifactId>
            <version>${spark.version}</version>
        </dependency>
        <dependency>
    <groupId>org.apache.spark</groupId>
    <artifactId>spark-sql_2.11</artifactId>
    <version>2.0.2</version>
        </dependency>
         </dependencies>

在Spark SQL中有两种方式可以在DataFrame和RDD进行转换，第一种方法是利用反射机制，推导包含某种类型的RDD，通过反射将其转换为指定类型的DataFrame，适用于提前知道RDD的schema。
第二种方法通过编程接口与RDD进行交互获取schema，并动态创建DataFrame，在运行时决定列及其类型

1.1．通过反射推断Schema

使用case class类型导入RDD转换为DataFrame，通过case class创建schema，case class的参数名称会被反射读取并成为表的列名

package com.fi
import org.apache.spark.SparkContext
import org.apache.spark.rdd.RDD
import org.apache.spark.sql.{DataFrame, SparkSession}

/**
  * RDD转化成DataFrame:利用反射机制
  */
//todo:定义一个样例类Person
case class Person(id:Int,name:String,age:Int) extends Serializable

object InferringSchema {

  def main(args: Array[String]): Unit = {
      //todo：1、构建sparkSession 指定appName和master的地址
    val spark: SparkSession = SparkSession.builder()
                              .appName("InferringSchema")
                              .master("local[2]").getOrCreate()
      //todo:2、从sparkSession获取sparkContext对象
      val sc: SparkContext = spark.sparkContext
      sc.setLogLevel("WARN")//设置日志输出级别
      //todo:3、加载数据
      val dataRDD: RDD[String] = sc.textFile("D:\\person.txt")
      //todo:4、切分每一行记录
      val lineArrayRDD: RDD[Array[String]] = dataRDD.map(_.split(" "))
      //todo:5、将RDD与Person类关联
      val personRDD: RDD[Person] = lineArrayRDD.map(x=>Person(x(0).toInt,x(1),x(2).toInt))
      //todo:6、创建dataFrame,需要导入隐式转换
      import spark.implicits._
      val personDF: DataFrame = personRDD.toDF()

    //todo-------------------DSL语法操作 start--------------
    //1、显示DataFrame的数据，默认显示20行
    personDF.show()
    //2、显示DataFrame的schema信息
    personDF.printSchema()
    //3、显示DataFrame记录数
    println(personDF.count())
    //4、显示DataFrame的所有字段
    personDF.columns.foreach(println)
    //5、取出DataFrame的第一行记录
    println(personDF.head())
    //6、显示DataFrame中name字段的所有值
    personDF.select("name").show()
    //7、过滤出DataFrame中年龄大于30的记录
    personDF.filter($"age" > 30).show()
    //8、统计DataFrame中年龄大于30的人数
    println(personDF.filter($"age">30).count())
    //9、统计DataFrame中按照年龄进行分组，求每个组的人数
    personDF.groupBy("age").count().show()
    //todo-------------------DSL语法操作 end-------------

    //todo--------------------SQL操作风格 start-----------
    //todo:将DataFrame注册成表
    personDF.createOrReplaceTempView("t_person")
    //todo:传入sql语句，进行操作

    spark.sql("select * from t_person").show()

    spark.sql("select * from t_person where name='zhangsan'").show()

    spark.sql("select * from t_person order by age desc").show()
    //todo--------------------SQL操作风格 end-------------


    sc.stop()
  }
}

1.2．通过StructType直接指定Schema

当case class不能提前定义好时，可以通过以下三步通过代码创建DataFrame
（1）将RDD转为包含row对象的RDD
（2）基于structType类型创建schema，与第一步创建的RDD相匹配
（3）通过sparkSession的createDataFrame方法对第一步的RDD应用
schema创建DataFrame

import org.apache.spark.SparkContext
import org.apache.spark.rdd.RDD
import org.apache.spark.sql.types.{IntegerType, StringType, StructField, StructType}
import org.apache.spark.sql.{DataFrame, Row, SparkSession}

/**
  * RDD转换成DataFrame:通过指定schema构建DataFrame
  */
object SparkSqlSchema {
  def main(args: Array[String]): Unit = {
      //todo:1、创建SparkSession,指定appName和master
      val spark: SparkSession = SparkSession.builder()
                                .appName("SparkSqlSchema")
                                .master("local[2]")
                                .getOrCreate()
      //todo:2、获取sparkContext对象
    val sc: SparkContext = spark.sparkContext
      //todo:3、加载数据
    val dataRDD: RDD[String] = sc.textFile("d:\\person.txt")
      //todo:4、切分每一行
    val dataArrayRDD: RDD[Array[String]] = dataRDD.map(_.split(" "))
      //todo:5、加载数据到Row对象中
    val personRDD: RDD[Row] = dataArrayRDD.map(x=>Row(x(0).toInt,x(1),x(2).toInt))
      //todo:6、创建schema
    val schema:StructType= StructType(Seq(
                                      StructField("id", IntegerType, false),
                                      StructField("name", StringType, false),
                                      StructField("age", IntegerType, false)
                                    ))

     //todo:7、利用personRDD与schema创建DataFrame
    val personDF: DataFrame = spark.createDataFrame(personRDD,schema)

    //todo:8、DSL操作显示DataFrame的数据结果
    personDF.show()

    //todo:9、将DataFrame注册成表
    personDF.createOrReplaceTempView("t_person")

    //todo:10、sql语句操作
    spark.sql("select * from t_person").show()

    spark.sql("select count(*) from t_person").show()


    sc.stop()
  }
}

cyclebozhou

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
spark和flume整合

软件版本:spark2.02 开发环境:idea,maven maven依赖: &lt;properties&gt; &lt;scala.version&gt;2.11.8&lt;/scala.version&gt; &lt;hadoop.version&gt;2.7.4&lt;/hadoop.version&gt; &lt;spark....
复制链接

扫一扫