09_spark_core_数据读存_seq文件

最新推荐文章于 2024-05-03 06:14:22 发布

旧城里的阳光

最新推荐文章于 2024-05-03 06:14:22 发布

阅读量390

点赞数 1

分类专栏：大数据 spark3.0 文章标签：大数据 spark

本文链接：https://blog.csdn.net/qq_43883124/article/details/114077071

版权

大数据同时被 2 个专栏收录

40 篇文章 0 订阅

订阅专栏

spark3.0

17 篇文章 0 订阅

订阅专栏

08_spark_core_数据读存_text文件

Sequence文件
总结

Sequence文件

SequenceFile文件是Hadoop用来存储二进制形式的key-value对而设计的一种平面文件(Flat File)。在SparkContext中，可以调用sequenceFilekeyClass, valueClass。
1）代码实现

package com.atguigu.readAndSave

import org.apache.spark.rdd.RDD
import org.apache.spark.{SparkConf, SparkContext}

/**
 * @author dxy
 * @date 2021/2/25 13:19
 */
object Operate_Sequence {
  def main(args: Array[String]): Unit = {
    //TODO 1.创建SparkConf并设置App名称
    val conf: SparkConf = new SparkConf().setAppName("SparkCoreTest").setMaster("local[*]")

    //TODO 2.创建SparkContext，该对象是提交Spark App的入口
    val sc: SparkContext = new SparkContext(conf)

    val strRDD: RDD[String] = sc.makeRDD(List("atguigu","zoo","hive","banana","spark","hadoop"))

    //seq文件的存储
    //strRDD.map((_,1)).coalesce(1).saveAsSequenceFile("D:\\DevelopmentTools\\spark\\SparkCoreTest1109\\seqout")

    //seq文件的读取
    val seqRDD: RDD[(String, Int)] = sc.sequenceFile("D:\\DevelopmentTools\\spark\\SparkCoreTest1109\\seqout")

    seqRDD.collect().foreach(println)

    //TODO 3.关闭连接
    sc.stop()

  }
}

运行结果
在这里插入图片描述

(atguigu,1)
(zoo,1)
(hive,1)
(banana,1)
(spark,1)
(hadoop,1)

总结

1.saveAsSequence行动算子在使用时存储K-V形式文件
2.Sequence文件读取可以使用上下文对象sc.sequenceFile[keyClass, valueClass](path)。
因此在读文件时，你要清楚你的文件K和V具体是什么类型(即当初你存储文件的时候文件K和V泛型是什么)


另外对于文件读取要灵活处理，比如：保存文件，文件内容较少可以保存在一个文件中，可以灵活使用coalesce()算子，先改分区个数
即:rdd.coalesce(1)

旧城里的阳光

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
09_spark_core_数据读存_seq文件

08_spark_core_数据读存_text文件Sequence文件总结Sequence文件SequenceFile文件是Hadoop用来存储二进制形式的key-value对而设计的一种平面文件(Flat File)。在SparkContext中，可以调用sequenceFilekeyClass, valueClass。1）代码实现package com.atguigu.readAndSaveimport org.apache.spark.rdd.RDDimport org.apache.s
复制链接

扫一扫

专栏目录