Spark-HDFS

最新推荐文章于 2024-03-05 18:40:37 发布

蔡大远

最新推荐文章于 2024-03-05 18:40:37 发布

阅读量204

点赞数

分类专栏： Spark

本文链接：https://blog.csdn.net/cai_and_luo/article/details/118897122

版权

Spark HDFS 文件流数据处理 reduceByKey

关键词由CSDN通过智能技术生成

Spark 专栏收录该内容

31 篇文章 0 订阅

订阅专栏

package org.example

import org.apache.log4j.{Level, Logger}
import org.apache.spark.{SparkConf, SparkContext}

object Spark_Hdfs {
  def main(args: Array[String]): Unit = {
    
  Logger.getLogger("org.apache.spark").setLevel(Level.OFF)
  Logger.getLogger("org.eclipse.jetty.server").setLevel(Level.OFF)

  var conf = new SparkConf().setMaster("local[*]").setAppName("SparkStream_HDFS")
  //    var ssc = new StreamingContext(conf,Seconds(6))
  var sc = new SparkContext(conf)

  var line = sc.textFile("hdfs://bd01:9000/spark/stream")

  var DStream = line.flatMap(x => x.split(" "))
  var Dmap = DStream.map(x => (x, 1))
  var DKey = Dmap.reduceByKey((x, y) => (x + y))

  DKey.foreach(println)
}
}

Spark打印出文件流的信息，这里有几个要注意的点，一是写hdfs文件路径时要注意fs.defaultFS(在core-xml的配置)是要能在外面访问通的
在这里插入图片描述

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

蔡大远

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Spark-HDFS

package org.exampleimport org.apache.log4j.{Level, Logger}import org.apache.spark.{SparkConf, SparkContext}object Spark_Hdfs { def main(args: Array[String]): Unit = { Logger.getLogger("org.apache.spark").setLevel(Level.OFF) Logger.getLogger
复制链接

扫一扫