AMPCamp2015之SparkStreaming wordCount

最新推荐文章于 2022-03-27 15:08:48 发布

kaiseu

最新推荐文章于 2022-03-27 15:08:48 发布

阅读量1.2k

点赞数

分类专栏： hdfs spark scala hadoop 文章标签： SparkStreaming spark hadoop hdfs hadoop集群

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/Kinger0/article/details/46386339

版权

spark 同时被 3 个专栏收录

12 篇文章 0 订阅

订阅专栏

8 篇文章 0 订阅

订阅专栏

7 篇文章 0 订阅

订阅专栏

这篇博客记录了在已搭建好的Hadoop和Spark集群上，如何利用SparkStreaming进行实时文本单词计数的步骤。首先启动集群，然后在HDFS创建测试文件夹并上传待处理文件。接着在spark-shell中导入所需包，创建SparkStreaming对象，通过DStream处理数据并在每个批次间隔内计算单词数量。最后，将外部文件传入HDFS，观察Scala控制台输出的计数结果。

摘要由CSDN通过智能技术生成

1 之前已经搭建好hadoop和spark集群

2 练习使用sparkStreaming对文本单词计数

2.1 首先启动集群

这是hadoop集群监控页面：

这是spark监控页面：

2.2 在hdfs上创建文件夹/test/tmp，用于存放待计数的文件

创建后的hdfs系统如下：

2.3 在客户端/app/hadoop/下有一个待计数的文件code，文件内容如下：

3 登陆spark-shell

3.1 启动spark-shell

3.2 导入用到的包：

3.3 创建一个sparkStreaming对象：

3.4 Create a DStream lines and calculate the word count within a batch interval

val lines = ssc.textFileStream("/test/tmp")
val words = lines.flatMap(_.split(" "))
val wordCounts = words.map(x => (x, 1)).reduceByKey(_ + _)
wordCounts.print()
ssc.start()

此时，控制台不断打印：

3.5 另外开一个终端，将之前准备的code文件上传到hdfs

3.6 可以看到此时scala控制台打印：

spark WEB UI 监控可以看到：

3.7 退出

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

kaiseu CSDN认证博客专家 CSDN认证企业博客

码龄13年

38: 原创

18万+: 周排名

93万+: 总排名

40万+: 访问

: 等级

2987: 积分

27: 粉丝

39: 获赞

18: 评论

68: 收藏

私信

关注

热门文章

分类专栏

hive 3篇
spark 12篇
安装 5篇
linux 16篇
hadoop 8篇
hdfs 6篇
java 29篇
idea 4篇
scala 7篇
算法题 17篇
c++ 6篇
network 1篇
sql 2篇
others 2篇

最新评论

Idea 编译报错 javacTask: 源发行版 1.6 需要目标发行版 1.6
菜菜的大数据开发之路: 博主是男生女生? 写的真的爆赞,有空来我博客指点一下好吧?
Java字符串题目--去除重复字符并排序
duyangge_: 利用的是相同的字符转换的AscII相同
Java字符串题目--去除重复字符并排序
新星裂变回复她的坏机器人: //将字母串去重并排序 //字符和数字随意转换 @Test public void test2() { String s = "adfghdfdaer"; char[] sChars = s.toCharArray(); //定义一个数组长度255 char[] chars = new char[255]; int temp;//临时变量 for (int i = 0; i < sChars.length; i++) { //sChars[i]每个字符对应的ascII temp = sChars[i];//这一步就去重了 //初始化字节数组 chars[temp]默认为0 if(chars[temp] == 0){ chars[temp] = 1; } } //可变长字符串排序 StringBuffer sb = new StringBuffer(); //chars[temp] = 1;这一步已经将值存好了 for (int i = 0; i < chars.length; i++) { if(chars[i] == 1){ sb.append((char)i); // sb.append(i); } } System.out.println(sb.toString()); } 这是我补充的注释希望能帮助后面的人不谢
Idea 编译报错 javacTask: 源发行版 1.6 需要目标发行版 1.6
weixin_43784272: 有用
数据库查询之通配符的使用
汉诺塔少年: 请问为什么 _ 没有效果？

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。