spark读取avro格式

最新推荐文章于 2024-08-25 08:28:53 发布

DaHuangXiao

最新推荐文章于 2024-08-25 08:28:53 发布

阅读量3.1k

点赞数 1

分类专栏： spark 文章标签： spark avro

本文链接：https://blog.csdn.net/m0_37637511/article/details/80420949

版权

spark 专栏收录该内容

7 篇文章

订阅专栏

本文介绍如何使用Apache Spark从Avro文件中读取数据，并通过JSON解析展示内容。涉及SparkConf配置、SparkContext创建及Avro文件读取等关键技术。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

package scala

import com.alibaba.fastjson.JSON
import org.apache.avro.generic.GenericRecord
import org.apache.avro.mapred.{AvroInputFormat, AvroWrapper}
import org.apache.hadoop.io.NullWritable
import org.apache.spark.{SparkConf, SparkContext}


object read_avro {

  def main(args: Array[String]) {
    if (args.length < 1) {
      println("Usage:SparkWordCount FileName")
      System.exit(1)
    }
    val conf = new SparkConf().setAppName("log_deal").setMaster("local")
    val sc = new SparkContext(conf)
    val avroRDD = sc.hadoopFile[AvroWrapper[GenericRecord], NullWritable, AvroInputFormat[GenericRecord]](args(0))
    avroRDD.map{l=>
      val line = l._1.toString
      val json= JSON.parseObject(line)
      val shape=json.get("shape")
      val count=json.get("count")
      (shape,count)}.foreach(println)
    sc.stop()
  }
}

输入的地址可以是一个文件夹，也可以是一个文件

读入后可以使用json解析