SparkSQL的数据结构和代码初体验

最新推荐文章于 2024-08-12 02:57:09 发布

LBJ_小松鼠

最新推荐文章于 2024-08-12 02:57:09 发布

阅读量264

点赞数

分类专栏： Spark

本文链接：https://blog.csdn.net/m0_49834705/article/details/112799250

版权

Spark 专栏收录该内容

16 篇文章 2 订阅

订阅专栏

1.SparkSQL的数据结构

1.3版本 DataFrame
1.6版本 DataSet
2.0版本 DataFrame = DataSet[ROW]
注意: ROW: DataFrame中每条数据封装在Row中，Row表示每行数据

2. SparkSQL的代码初体验

import org.apache.spark.SparkContext
import org.apache.spark.sql.{Dataset, SparkSession}

/**
 * @author liu a fu
 * @date 2021/1/14 0014 22:42
 * @version 1.0
 */
/**
 *   这里就是通过SparkSession入口实现SparkSQL的简单的操作
 */
object _01FirstSparkSql {

  def main(args: Array[String]): Unit = {

    val sparkSql: SparkSession = SparkSession     //SparkSQL的入口
      .builder()
      .appName(this.getClass.getSimpleName.stripSuffix("$"))
      .master("local[*]")
      .getOrCreate()

    //导入SparkContext
    val sc: SparkContext = sparkSql.sparkContext
    sc.setLogLevel("WARN")

    //读取数据文件
    val valueDS: Dataset[String] = sparkSql.read.textFile("data/input/words.txt")
    //简单统计几行数据
    println("record counts is:",valueDS.count())     //(record counts is:,3)
    //使用show查看
    valueDS.show()

    /**
     * 结果: 直接映射成了一张表
     */
    //   +--------------------+
    //   |               value|
    //   +--------------------+
    //   | hello hurong liuafu|
    //   |hello kobe  hello...|
    //   | hello         james|
    //    +--------------------+

    //关闭spark
    sparkSql.stop()
  }

}