- 博客(5)
- 资源 (102)
- 收藏
- 关注
原创 Spark Structured Streaming: 自维护(任意)状态流的“超时”(Timeout)问题
此“超时”非彼“超时”在我们开始这篇文章之前,我们必须要先弄清除一下问题:为什么流的上的状态会有“超时”问题?超时机制是为什么样的业务场景而设计的?通常情形下,人们一种直白的想法是:某种状态在长时间没有得到来自新数据的更新时,我们可以认为这个状态是“超时”了,它应该不复存在了,应该永远的被移除掉。然而遗憾的时是,Spark对于“状态”以及“超时”是另外一种理解:Spark认为既然流是没有边...
2018-06-28 15:42:41 3466 2
原创 Spark基于事件时间的“状态”流的深层分析 - withWatermark与mapGroupsWithState的关系
不管是基于watermark的窗口计算还是自维护的状态流,它们都是有状态的,watermark只是规定了数据进入“状态”(有资格参与状态计算)的条件,并没有(也不适合)声明状态的“退出”机制。对于watermark的窗口计算来说,它们的“退出”机制是:如果最近某个还处于active状态的窗口它的EndTime比当前批次中最新的一个事件时间减去watermark规定的阈值还要“早”,说明这个窗口所有...
2018-06-27 09:48:27 4841 2
原创 Spark性能调优系列二:Spark流计算重要性能参数测试与分析
参数介绍spark.scheduler.modespark.streaming.concurrentJobsscheduler线程池测试用例Test Case Group 1: FIFO vs. FAIRTest Case 1-1: FIFOTest Case 1-2: FAIRTest Case Group 2: FIFO 1 Slot vs. FIFO 4 Slo...
2018-06-21 09:39:41 4668 2
原创 Spark性能调优系列一:Spark的作业模型
JobSpark的整个作业体系中,处于顶层的是Job, Job和Spark中的Action是一一对应的,每一个Action都会触发一个Job的执行,这个Job包含的处理逻辑是Action以及Action之前的所有Transformation, 所有这些逻辑会被Spark转换成一张关于RDD的DAG(有向无环图),这个DAG也就是实际意义上的Job的执行计划。StageJob的下一个...
2018-06-11 16:12:44 1858
原创 Spark Structured Streaming多流multiple streams)多查询(multiple queryies)问题
Structured Streaming作为Spark新一代的流计算编程模型,针对流计算提供了很多新的的高级的API进行支持,这使得它比DStream要好用的多,同时编码量也大幅度地减少,但是在当前版本V2.3下, Structured Streaming无法支持 多流(multiple streams) 多查询 (multiple queryies)是非常头痛的一个问题。在流计算中,一个非常...
2018-06-08 09:56:32 4141 11
Big_Data_SMACK.pdf
2016-10-14
The.Art.of.Multiprocessor.Programming.Revised.Reprint
2014-02-06
win7下硬盘安装Linux(Fedora17,CentOS 6.4,Ubuntu 12.10,LinuxMint 13 64-bit)
2013-08-16
Packtpub.Hadoop.MapReduce.Cookbook.Jan.2013
2013-03-04
OpenSSH for Windows
2013-02-06
Professional Website Performance.pdf
2013-02-04
Red.Gate.SQL.Toolbelt.v1.8.2.238.Incl.Keygen
2013-01-14
Araxis.Merge.Professional.v2012.4260.x64-BEAN
2012-12-27
Apress.Pro.SQL.Server.2012.Practices.Nov.2012
2012-12-24
Professional JavaScript for Web Developers, 3rd Edition 附书中代码
2012-09-19
Head.First.HTML.and.CSS.2nd.Edition.Aug.2012
2012-09-11
Packtpub.Spring.Security.3.May.2010
2012-09-10
Pro Apache Log4j Second Edition
2012-09-06
PowerDesigner16.1 crack keygen 破解文件
2012-06-21
SecureCRT.v6.7.3.292(含注册码和破解补丁),
2012-06-13
SecureCRT.v6.7.3.292.x64(含注册码和破解补丁)
2012-06-13
Apache Solr 3.1 Cookbook
2012-04-24
Lucene in Action 2nd Edition
2012-04-24
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人