Spark学习笔记：基于HDFS的实时计算WordCount

最新推荐文章于 2022-10-13 20:36:08 发布

SetsunaMeow

最新推荐文章于 2022-10-13 20:36:08 发布

阅读量356

点赞数

分类专栏： Spark Spark Streaming 文章标签： Spark Spark Streaming

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/lrxcmwy2/article/details/82721427

版权

Spark 同时被 2 个专栏收录

15 篇文章 3 订阅

订阅专栏

Spark Streaming

10 篇文章 0 订阅

订阅专栏

基于HDFS的实时计算WordCount

基于HDFS文件的实时计算，其实就是监控一个HDFS目录，只要有新文件出现就实时处理
StreamingContext.fileStream(dataDirectory)方法可以从多种文件系统的文件中读取数据，然后创建一个DStream

package StreamingDemo

import org.apache.log4j.{Level, Logger}
import org.apache.spark.SparkConf
import org.apache.spark.streaming.{Seconds, StreamingContext}

/**
  * 基于HDFS的实时WordCount
  */
object HDFSWordCount {
  def main(args: Array[String]): Unit = {
    //设置日志的级别
    Logger.getLogger("org").setLevel(Level.WARN)
    val conf=new SparkConf().setAppName(this.getClass.getSimpleName).setMaster("local[2]")
    val ssc=new StreamingContext(conf,Seconds(2))

    //从HDFS相应的目录中获取数据，创建输入DStream，监控input目录
    val inputDStream=ssc.textFileStream("hdfs://Hadoop01:9000/input")
    val wordCountDStram = inputDStream.flatMap(_.split(" ")).map((_,1)).reduceByKey(_+_)

    wordCountDStram.print()

    ssc.start()
    ssc.awaitTermination()

  }
}

注意事项
1.所有放入HDFS目录中的文件，都必须有相同的格式
2.文件一旦处理之后，文件的内容即使改变，也不会再处理了
3.基于HDFS文件的数据源是没有Receiver（自定义的receiver相当于Socket套接字的客户端编程）的，因此不会占用一个cpu core

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

SetsunaMeow CSDN认证博客专家 CSDN认证企业博客

码龄8年

58: 原创

39万+: 周排名

93万+: 总排名

15万+: 访问

: 等级

1686: 积分

109: 粉丝

116: 获赞

18: 评论

592: 收藏

私信

关注

热门文章

分类专栏

Oracle 4篇
MySQL
Linux 1篇
Java 1篇
Hadoop 1篇
Mapreduce
Hive 4篇
Hbase 4篇
Sqoop 1篇
Flume 5篇
Scala 4篇
Spark 15篇
Spark Streaming 10篇
Kafka 8篇
码出高效
LeetCode题解
学习笔记 2篇
Python 10篇
工作手记
Dataphin
数据仓库

最新评论

HBase学习笔记：使用BulkLoad特性快速导入海量数据
Thomas2143: 为什么 "仅适合初次数据导入" ?
HBase学习笔记：使用BulkLoad特性快速导入海量数据
daydreameryyyy: 请教一下，这个问题解决了吗
HBase学习笔记：使用BulkLoad特性快速导入海量数据
万万使不得: 你好，我想问一下添加了hbase的lib后，类能找到了，但是报了下面这个错，本地这个类里是有这个方法的，hbase lib下的jar里也有这个方法，不知道哪里出了问题 [code=java] Exception in thread "main" java.lang.NoSuchMethodError: org.apache.hadoop.hdfs.client.HdfsDataInputStream.getReadStatistics()Lorg/apache/hadoop/hdfs/DFSInputStream$ReadStatistics; at org.apache.hadoop.hbase.io.FSDataInputStreamWrapper.updateInputStreamStatistics(FSDataInputStreamWrapper.java:253) at org.apache.hadoop.hbase.io.FSDataInputStreamWrapper.close(FSDataInputStreamWrapper.java:300) at org.apache.hadoop.hbase.io.hfile.HFile.isHFileFormat(HFile.java:653) at org.apache.hadoop.hbase.io.hfile.HFile.isHFileFormat(HFile.java:634) at org.apache.hadoop.hbase.tool.LoadIncrementalHFiles.visitBulkHFiles(LoadIncrementalHFiles.java:1071) at org.apache.hadoop.hbase.tool.LoadIncrementalHFiles.discoverLoadQueue(LoadIncrementalHFiles.java:987) at org.apache.hadoop.hbase.tool.LoadIncrementalHFiles.prepareHFileQueue(LoadIncrementalHFiles.j [/code]
Kafka学习笔记：Kafka的Topic、Partition和Message
扯淡的工程师: replicas的数量和服务器数量差不多吧，还是我理解错了
HBase学习笔记：使用BulkLoad特性快速导入海量数据
爱吃大盘鸡的小菜鸡: 您好，我不太懂MapReduce，我看到在mapper类里不是只写了一个put吗，但是txt里有两行数据啊，如果txt里有一千行数据呢？每行数据都会运行一次map方法吗？

大家在看

yaml注入配置文件 499

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。