Spark读取结构化数据

奔跑de五花肉

于 2018-08-04 22:25:29 发布

阅读量1k

点赞数

分类专栏：大数据

本文链接：https://blog.csdn.net/fbz123456/article/details/81416176

版权

本文介绍了如何使用Spark从本地CSV、HDFS以及Hive读取结构化数据，并转化为DataFrame进行分析。详细讲解了读取本地CSV时设置选项，如header和delimiter，以及通过SparkSession执行Hive查询和HDFS数据的读取方法，强调了HDFS中获取表头的注意事项。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

读取结构化数据

Spark可以从本地CSV，HDFS以及Hive读取结构化数据，直接解析为DataFrame，进行后续分析。

读取本地CSV

需要指定一些选项，比如留header，比如指定delimiter值，用，或者\t或者其他。

import org.apache.spark.sql.{DataFrame, SparkSession}

object ReadCSV {
  val spark: SparkSession = SparkSession
    .builder()
    .appName("Spark Rocks")
    .master("local[*]")
    .getOrCreate()

  val path: String = "/path/to/file/data.csv"
  val df: DataFrame = spark.read
    .option("header","true")
    .option("inferSchema","true")
    .option("delimiter",",")
    .csv(path)
    .toDF()

  def main(args: Array[String]): Unit = {
    df.show()
    df.printSchema()
  }
}

读取Hive数据

SparkSession可以直接调用sql方法，传入sql查询语句即可。返回的DataFrame可以做简单的变化，比如转换
数据类型，对重命名之类。