Spark：自定义Schema信息将数据集合转换为Spark sql中的DataFrame

最新推荐文章于 2023-09-28 11:08:51 发布

无名一小卒

最新推荐文章于 2023-09-28 11:08:51 发布

阅读量1k

点赞数

文章标签： Spark Sql

本文链接：https://blog.csdn.net/h1025372645/article/details/98786709

版权

Spark 专栏收录该内容

23 篇文章 1 订阅

订阅专栏

使用场景

在Spark中可以直接读取数据文件
但是读取到的数据的每一项数据是没有数据类型的
而且不能使用数据像使用数据表中的字段名那样使用数据
可以在读取数据的时候对读取到的数据进行设置转换
设置转换后使用数据可以像使用数据库表中的字段那样
通过字段名获取数据

代码实现

import java.util.Properties
import org.apache.spark.sql.types._
import org.apache.spark.sql.{DataFrame, SaveMode, SparkSession}

/**
  * 演示SparkSQL读取各种数据源的数据，进行分析
  */
object SchemaTsvSpark {
  def main(args: Array[String]): Unit = {

    val spark = SparkSession
      .builder()
      .appName("SchemaTsvSpark")
      .master("local[2]")
      //设置sparkSQL中shuffle 时分区数
      .config("spark.sql.shuffle.partitions",2)
      .getOrCreate()

    spark.sparkContext.setLogLevel("WARN")
    import spark.implicits._

    //自定义Schema信息
    val schema:StructType = StructType(
      Array(
        StructField("user_id",IntegerType,true),
        StructField("item_id",IntegerType,true),
        StructField("rating",DoubleType,true),
        StructField("timestamp",LongType,true)
      )
    )

    val mlRatingDF: DataFrame = spark.read
      .option("sep","\t")
      .schema(schema)
      .csv("file:///E:/u.data")


    mlRatingDF.printSchema()
    mlRatingDF.show(4,false)
    
    spark.read
      .option("sep",",")
      .option("header","true") //获取字段的名称
      .option("inferSchema","true") //自动推断出各列的数据类型
      .csv("file:///E:/ml-100/u_data.csv")
      .printSchema()
     
    spark.stop()
  }
}