Spark SQL多数据源交互_第四章

最新推荐文章于 2022-12-19 09:39:10 发布

a大数据yyds

最新推荐文章于 2022-12-19 09:39:10 发布

阅读量1k

点赞数 1

分类专栏： spark 文章标签： spark

本文链接：https://blog.csdn.net/qq_45765882/article/details/105561475

版权

该博客详细介绍了如何使用Spark SQL进行数据写入和读取操作，涵盖了文本、JSON、CSV、Parquet和MySQL等多种数据源。通过示例代码展示了如何创建DataFrame，将数据写入不同的数据源，并从各种数据源读取数据，包括从MySQL数据库中读取数据。

摘要由CSDN通过智能技术生成

Spark SQL可以与多种数据源交互，如普通文本、json、parquet、csv、MySQL等
1.写入不同数据源
2.读取不同数据源
写数据:

package cn.itcast.sql
import java.util.Properties
import org.apache.spark.SparkContext
import org.apache.spark.rdd.RDD
import org.apache.spark.sql.{DataFrame, SaveMode, SparkSession}
object WriterDataSourceDemo {
case class Person(id:Int,name:String,age:Int)
def main(args: Array[String]): Unit = {
//1.创建SparkSession
val spark: SparkSession = SparkSession.builder().master(“local[*]”).appName(“SparkSQL”)
.getOrCreate()
val sc: SparkContext = spark.sparkContext
sc.setLogLevel(“WARN”)
//2.读取文件
val fileRDD: RDD[String] = sc.textFile(“D:\data\person.txt”)
val linesRDD: RDD[Array[String]] = fileRDD.map(.split(" "))
val rowRDD: RDD[Person] = linesRDD.map(line =>Person(line(0).toInt,line(1),line(2).toInt))
//3.将R