0083.使用Scala和Java实战Spark Streaming开发第二讲Spark Streaming

最新推荐文章于 2020-05-07 17:46:20 发布

njiang

最新推荐文章于 2020-05-07 17:46:20 发布

阅读量1.1k

点赞数

分类专栏： spark 文章标签： Spark Streaming spark

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/njiang/article/details/51197549

版权

spark 专栏收录该内容

15 篇文章 0 订阅

订阅专栏

import org.apache.spark.SparkConf;

import org.apache.spark.api.java.function.FlatMapFunction;

import org.apache.spark.api.java.function.Function2;

import org.apache.spark.api.java.function.PairFunction;

import org.apache.spark.streaming.Durations;

import org.apache.spark.streaming.api.java.JavaDStream;

import org.apache.spark.streaming.api.java.JavaPairDStream;

import org.apache.spark.streaming.api.java.JavaReceiverInputDStream;

import org.apache.spark.streaming.api.java.JavaStreamingContext;

import scala.Tuple2;

import scala.collection.parallel.ParIterableLike;

import java.util.Arrays;

/**

* Created by root on 16-4-19.

*/

public class WordCountOnline {

public static void main(String[] args){

/**第一步创建SparkConf

* 1.至少有两个线程，一个线程用于接收数据，一个线程用于处理数据

* 否则内存和磁盘都会无法承受

* 2.对于集群而言每个Executor,肯定不只有一个线程，对于处理Spark Streaming

* 的应用程序而言，一般分配几个Core比较合适，5个左右的Core比较合适

*/

SparkConf conf = new SparkConf().setMaster("local").setAppName("WordCountOnline");

JavaStreamingContext jsc = new JavaStreamingContext(conf, Durations.seconds(5));

/**

* 第三步创建Spark Streaming输入来源， input Stream

* 1.数据输入来源可以是：File,HDFS,Flume,Kafka,Socket等

* 2.该端口服务首先必须存在，不断产生数据

* 3.在生产环境中首先要判断是否有数据，如果没有数据，就不进行提交Job

*/

// JavaReceiverInputDStream lines = jsc.socketTextStream("local", 9999);

JavaDStream lines = jsc.textFileStream("/tmp/spark/");

/**

* 接下来就像基于RDD一样进行处理，基于DStream进行处理，DStream是RDD产生的模板或者说类，

* 在Spark Streaming发生计算前，其实际是把每个DStream翻译成RDD的操作

*/

JavaDStream words = lines.flatMap(new FlatMapFunction<String, String>() {

@Override

public Iterable call(String line) throws Exception {

return Arrays.asList(line.split(" "));

}

});

JavaPairDStream<String,Integer> pairs = words.mapToPair(new PairFunction<String, String, Integer>() {

@Override

public Tuple2 call(String word) throws Exception {

return new Tuple2<String, Integer>(word, 1);

}

});

JavaPairDStream<String,Integer> wordCounts = pairs.reduceByKey(new Function2<Integer, Integer, Integer>() {

@Override

public Integer call(Integer integer, Integer integer2) throws Exception {

return integer + integer2;

}

});

wordCounts.print();

jsc.start();

jsc.awaitTermination();

}

}

1.启动服务

2.进入目录：/tmp/spark/

3.创建文件：echo "A B B C" >> test1.txt

4.出现结果

-------------------------------------------

Time: 1461059835000 ms

-------------------------------------------

(B,2)

(A,1)

(C,1)

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

njiang CSDN认证博客专家 CSDN认证企业博客

码龄17年

124: 原创

18万+: 周排名

147万+: 总排名

11万+: 访问

: 等级

2432: 积分

29: 粉丝

15: 获赞

10: 评论

25: 收藏

私信

关注

热门文章

分类专栏

最新评论

（40）21.4.1 装饰性花园---Java编程思想之并发笔记
阿雪阿J: 说得好
（40）21.4.1 装饰性花园---Java编程思想之并发笔记
阿雪阿J 回复 egbertday: 本书上说到：“如果你正在写一个变量，它可能接下来将被另一个线程读取，或者正在读取一个上一次已经被另一个线程写过的变量，那么你必须使用同步”。 number变量确切来说是被多个线程共享也就是执行main函数的线程，因为在main线程中需要读取这个变量（在调用sumEntrances函数时）。个人认为在这个例子中Entrance实例的number属性只需保证可见性，所以在number属性上的读和写操作都进行了同步控制。这也就是为什么书中的代码加synchronized。保证可见性的手段除了同步控制还可以使用volatile 或者 AtomicInteger类型来替代。以上是个人理解，如有错误，请指正
（40）21.4.1 装饰性花园---Java编程思想之并发笔记
egbertday 回复 Java菜鸟成长之路: [code=java] for(int i=0;i<5;i++){ exec.execute(new Entrance(i)); } [/code] 和下面的代码是有区别的 [code=java] Entrance e1=new Entrance(1); for(int i=0;i<5;i++){ exec.execute(e1) } [/code]
（40）21.4.1 装饰性花园---Java编程思想之并发笔记
egbertday 回复 Java菜鸟成长之路: 可以，因为在main()方法中创建了五个任务实体分别交给5个线程来处理，因此，Runnable实体也就是Entrance不会共享，线程之间不产生竞争，所以可以任何对Entrance对象读写操作的同步，作者这里应该是误写了，虽然程序运行一切正常 [/code]
（34）21.3.5 临界区---Java编程思想之并发笔记
马林515: 直接下载ExplicitCriticalSection这个Demo的源码在jdk6下面运行都会出现 x和y 不相等的情况。你这个是在什么环境下得出的预期结果？

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。