第82讲 Spark Streaming第一讲 Spark Streaming 工作原理

最新推荐文章于 2021-07-19 10:36:45 发布

njiang

最新推荐文章于 2021-07-19 10:36:45 发布

阅读量2.6k

点赞数

分类专栏： spark 文章标签： Spark Streaming spark

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/njiang/article/details/51176920

版权

spark 专栏收录该内容

15 篇文章 0 订阅

订阅专栏

第82讲 Spark Streaming第一讲 Spark Streaming 工作原理

1.数据流来源

数据流来源于不同的设备，应用程序、监控设备、工业设备、电商网站、社交网络、搜索引擎、金融领域、安全防护监控、垃圾邮件等。

2.从大数据的角度看，突然发现很少不是流处理，数据产生时的价值是最大的，在以后，一个星期前的数据，可能没有任何价值。

3.spark Streaming与storm选择

（1）如果需要毫秒级的响应，选择storm,其他所有的方面选择spark Streaming。

（2）Storm是一条一条处理的。spark Streaming是按照时间段进行处理的，与内容无关。

（3）Spark Streaming也是可以一条一条进行处理，需要一个机制，一般是利用kafka。数据来自不同的终端，推送给Kafka，kafka是最好的消息中间件，是一个集群，可以处理任意规模的数据，spark Streaming会从kafka中获取数据，进行处理。

4.kafka简介

（1）kafka是生产者和消费者模式，kafka既有广播模式，又有队列模式，Zero-copy导致kafka效率更高。

（2）需要Kafka的原因：做缓存（Cache）+不论数据来源统一的接口（interface）+数据的持久化（persistence）+内核中磁盘交换（zero-copy）

（3）kafka默认持久化一个星期数据

5.Spark Streaming是一个计算框架，可以根据需要来从kafka中获取数据，FrameWork意味着其对数据不进行计算，抓过来先分析一下，再运行，到底是怎么运行的？

6.Spark Streaming运行原理初探

Spark Streaming不是基于RDD编程的，但是FrameWork只认RDD，Job是由FrameWork定时产生的，而不是由程序代码产生的。Job的产生本身是RDD的action，也就是说spark Streaming 框架每隔一秒钟产生一个作业，写业务逻辑的时候是考虑一秒钟的时间的RDD。写的代码是作业的模板，一秒钟产生一个作业，时间一运动就会模板实例化。RDD模板是DStream，RDD之间会有依赖，Dstream也会有依赖，回构成DAG图，也就是job的DAG图

7.Spark Streaming根据流式处理在RDD的基础上做一层封装：DStream

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

njiang CSDN认证博客专家 CSDN认证企业博客

码龄17年

124: 原创

18万+: 周排名

147万+: 总排名

11万+: 访问

: 等级

2432: 积分

29: 粉丝

15: 获赞

10: 评论

25: 收藏

私信

关注

热门文章

分类专栏

最新评论

（40）21.4.1 装饰性花园---Java编程思想之并发笔记
阿雪阿J: 说得好
（40）21.4.1 装饰性花园---Java编程思想之并发笔记
阿雪阿J 回复 egbertday: 本书上说到：“如果你正在写一个变量，它可能接下来将被另一个线程读取，或者正在读取一个上一次已经被另一个线程写过的变量，那么你必须使用同步”。 number变量确切来说是被多个线程共享也就是执行main函数的线程，因为在main线程中需要读取这个变量（在调用sumEntrances函数时）。个人认为在这个例子中Entrance实例的number属性只需保证可见性，所以在number属性上的读和写操作都进行了同步控制。这也就是为什么书中的代码加synchronized。保证可见性的手段除了同步控制还可以使用volatile 或者 AtomicInteger类型来替代。以上是个人理解，如有错误，请指正
（40）21.4.1 装饰性花园---Java编程思想之并发笔记
egbertday 回复 Java菜鸟成长之路: [code=java] for(int i=0;i<5;i++){ exec.execute(new Entrance(i)); } [/code] 和下面的代码是有区别的 [code=java] Entrance e1=new Entrance(1); for(int i=0;i<5;i++){ exec.execute(e1) } [/code]
（40）21.4.1 装饰性花园---Java编程思想之并发笔记
egbertday 回复 Java菜鸟成长之路: 可以，因为在main()方法中创建了五个任务实体分别交给5个线程来处理，因此，Runnable实体也就是Entrance不会共享，线程之间不产生竞争，所以可以任何对Entrance对象读写操作的同步，作者这里应该是误写了，虽然程序运行一切正常 [/code]
（34）21.3.5 临界区---Java编程思想之并发笔记
马林515: 直接下载ExplicitCriticalSection这个Demo的源码在jdk6下面运行都会出现 x和y 不相等的情况。你这个是在什么环境下得出的预期结果？

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。