![](https://img-blog.csdnimg.cn/20201014180756928.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
分布式系统
程序引力
这个作者很懒,什么都没留下…
展开
-
Spark概述
Spark概述Spark特点 内存计算 中间处理数据也放在内存中,减少磁盘I/O 支持复杂查询:包括filter、SQL查询、流式查询等 支持实时流处理(Hadoop只能离线处理) 迭代计算 Spark应用框架Spark StreamingTachyon过去,Spark的计算功能和内存管理都是在JVM中,导致JVM负载较高,且JVM崩溃后数据会丢失。 Tachyon的目的是分离Spark的计算功能原创 2016-09-08 09:11:42 · 496 阅读 · 0 评论 -
Hadoop和Spark的联系和区别
Hadoop和Spark的联系和区别计算数据存储位置 Hadoop:硬盘 Spark:内存 计算模型 Hadoop:单一 Spark:丰富 处理方式 Hadoop:非迭代 Spark:迭代 场景要求 Hadoop:离线批处理。(面对SQL交互式查询、实时处理及机器学习等需要和第三方框架结合。多种数据格式转换,导致消耗大量资源) Spark:批处理、实时处理原创 2016-09-08 09:11:11 · 3632 阅读 · 0 评论 -
Spark Streaming和Storm的区别和联系
Spark Streaming和Storm区别和联系Spark Streaming和Storm都是将流数据分成一个个小块的批数据(batch)。处理模型、延迟Strom:处理的是每次传入的事件。秒内延迟。(最小100ms) Spark Streaming:处理的是某个时间段窗口内的事件流。秒级延迟。(0.5~2s)容错、数据保证Strom:每个单独的记录都会被跟踪。恢复时,意味着状态可能被错误滴更原创 2016-09-08 09:10:41 · 1153 阅读 · 0 评论 -
Spark Streaming
Spark Streaming流程 创建StreamingContext对象 定义输入源 定义处理过程 调用StreamingContext的start()方法开始处理数据 处理过程持续到StreamingContext的stop方法被调用 状态 一个应用程序只允许有一个SparkContext处于活跃状态,创建新的时,会将老的关闭才行 一个SparkContext对象可以创建多个Streaming原创 2016-09-08 09:10:05 · 200 阅读 · 0 评论