sparksql中三种方式创建DataFrame

最新推荐文章于 2024-07-15 14:21:43 发布

一个射手座程序猿

最新推荐文章于 2024-07-15 14:21:43 发布

阅读量240

点赞数

分类专栏：云计算/大数据文章标签： RDD spark dataframe

本文链接：https://blog.csdn.net/weixin_40440225/article/details/102759993

版权

sparksql中三种方式创建DataFrame

摘要由CSDN通过智能技术生成

文章目录

sparksql中三种方式创建DataFrame

0.准备数据person.txt

1 zhangsan 20
2 lisi 29
3 wangwu 25
4 zhaoliu 30
5 xiaoqi 35
6 kobe 40

1.使用样例类+反射创建DataFrame

package com.xyz.sparksql

import org.apache.spark.rdd.RDD
import org.apache.spark.{
   SparkConf, SparkContext}
import org.apache.spark.sql.{
   DataFrame, SparkSession}

object DataFrameDemo1 {
   

  /*
  演示创建DataFrame-使用RDD转换--Schema使用样例类+反射添加的
   */
  def main(args: Array[String]): Unit = {
   
    //1.创建SparkSession,获取SparkContext
    val conf: SparkConf = new SparkConf().setAppName("DataFrameDemo1").setMaster("local[*]")
    val spark: SparkSession = SparkSession.builder().config(conf).getOrCreate()
    val sc: SparkContext = spark.sparkContext
    //指定日志级别
    sc.setLogLevel("WARN")
    //2.读取文件
    val fileRDD: RDD[String] = sc.textFile("F:\\data\\person.txt")
    //3.处理文件数据
     val linesRDD: RDD[Array[String]] = fileRDD.map(url =>url.split(