- 博客(16)
- 资源 (3)
- 收藏
- 关注
原创 Spark定制班第33课:Kafka内核再解密
本期内容:1. Kafka:最快的消息系统2. Kafka内核内幕Kafka第一设计原则是消息的传送速度。3台普通的server可以达到百万条消息/秒。Kafka的消息存储能力是无限的。使用了的数据是保存在consumer上。分布式的实时消息来源。由于是在前面取出数据,在后面追加数据,无需加锁,磁盘顺序查询,寻道时间很快,比随机查询快很多,据说快一万倍。 可以有任意规模的pro
2016-06-28 18:38:51 474
原创 Spark定制班第32课:Kafka原理内幕和集群构建与测试实战
本期内容:1. Kafka原理内幕2. Kafka集群实战Spark Streaming是处理层面的,Kafka相当于流程控制和数据控制的层面。Kafka就是消息中间件。分布式的,可以扩展规模。可以对消息持久化。默认是7天,意思是,不管是否已消费,消息7天之后会被删除。有队列方式,也有发布者和订阅者方式。事务方面,kafka不行。是个粘合器,打破信息孤岛。Kafka观点
2016-06-24 10:12:58 664
原创 Spark定制班第31课:集群运行模式下的Spark Streaming调试和难点解决实战经验分享
本期内容:1. 集群模式下的Spark Streaming调试2. 集群模式下的Spark Streaming难点解决案例分享怎么找出前课想象的原因?每个batch duration内的处理中,saveAsTextFiles只有一个job。reduceByKey的并行度改为8,shuffle时也确实有8个task。虽然设置job并行度是1,但日志中显示每个batch d
2016-06-24 10:12:13 937
原创 Spark定制班第30课:集群运行模式下的Spark Streaming日志和Web监控台实战演示彻底解密
本期内容:1. 集群模式下的Spark Streaming日志2. 集群模式下的Spark Streaming Web监控台NetworkWordCount程序 batch duration设置300秒。job并行度为1。4个worker的集群。看web控制台知道,如果不输入数据,Receiver就没有计算任务。数据处理的任务中socket text strearm
2016-06-24 10:11:30 564
原创 Spark定制班第29课:深入理解Spark 2.x中的Structured Streaming内幕
本期内容:1. 新型的Spark Streaming思维2. Structured Streaming内幕Spark 2.0 仍有bug,不适合于生成环境。只用于测试。Spark 2.X提出了continuous application(连续的应用程序)的概念,非常重大。如图例所示,数据通过Kafka流进来,经过ETL,SS把数据看成一张表。一张没有边际的表、
2016-06-24 10:10:35 3484
原创 Spark定制班第28课:在集成开发环境中详解Spark Streaming的运行日志内幕
本期内容:1. Spark Streaming日志2. Spark Streaming在IDE中的日志分析 WordCountLine15秒钟的时间间隔日志中ForeachDStream先打印。SocketInputDStream storage level false,false,false,false,1但StorageLevel:remembe
2016-06-24 10:02:35 707
原创 Spark定制班第27课:Spark Streaming的为什么在DStream的Action操作之外也可能产生Job操作
本期内容:1. Spark Streaming产生Job的机制2. Spark Streaming的其它产生Job的方式 1. Spark Streaming产生Job的机制Scala程序中,函数可以作为参数传递,因为函数也是对象。有函数对象不意味着函数马上就运行。Spark Streaming中,常利用线程的run来调用函数,从而导致函数的最终运行。S
2016-06-24 10:01:23 1253
原创 Spark定制班第26课:Spark Streaming的JobGenerator源码图解
本期内容:1. JobGenerator源码2. JobGenerator图解第6课曾经对JobGenarator生成Job的主要流程进行过一些剖析。这次在原有基础上做一些补充。第6课给出了以下生成Job的相关类的主流程图:以下图也给出了JobGenerator的更多的工作流程供参考:JobGenerator用于从DStream产生作
2016-06-23 21:35:18 576
原创 Spark定制班第25课:Spark Streaming的StreamingContext启动及JobScheduler启动源码图解
本期内容:1. StreamingContext启动源码图解2. JobScheduler启动源码图解StreamingContext的start方法对INITIALIZED、ACTIVE、STOPPED等状态分别做不同处理。StreamingContext在INITIALIZED状态时,用validate方法对DStreamGraph、checkpoint等做有效检查,然
2016-06-12 12:38:43 566
原创 Spark定制班第24课:Spark Streaming的Transformation、Action、Input和Output源码图解
本期内容:1. Spark Streaming的Transformation、Action源码图解2. Spark Streaming的Input、Output源码图解StreamingContext成员:socketStream /** * Create a input stream from TCP source hostname:port
2016-06-12 12:37:25 837
原创 Spark定制班第23课:Spark Streaming初始化和关闭源码图解
本期内容:1. Spark Streaming初始化源码图解2. Spark Streaming关闭源码图解Spark Streaming的StreamingContext是采用装饰器模式,对SparkContext的封装。是在Spark Core的基础上加了一些功能,所有的实际上还是用Spark Core去实现。batchDuration是在Spark Core的基础上新
2016-06-12 12:36:02 1053
原创 Spark定制班第22课:Spark Streaming架构源码图解
本期内容:1. Spark Streaming再思考2. Spark Streaming架构源码图解Spark Streaming的基本架构可以类比食物的消化,来理解流数据的处理。Spark Streaming有多种数据源,流进Spark集群。Spark集群的Receiver收到通讯后,通过RPC通讯机制给Driver,Driver的DStream按照时间进
2016-06-12 12:34:24 553
原创 Spark定制班第21课:Spark Streaming中动态Batch Size深入及RateController解析
本期内容:1. 动态Batch Size深入2. RateController解析1. 动态Batch Size深入Dynamic Batch Size的方法实际在Spark Streaming中还没实现。论文中的解决方案:Fixex-point Iteration。论文中有个比较重要的图:基本思想:按100ms的批次发数据给Controll
2016-06-07 20:42:49 2346
原创 Spark定制班第20课:Spark Streaming中动态Batch Size实现初探
本期内容:1. Batch Duration与Process Time2. 动态Batch Size 不要低估Batch Duration与Process Time匹配的问题。两者关系不是线性规律。不是数据量大,就简单加大Batch Duration来解决问题。前面推荐的论文很重要。参加定制班,不是简单学编程,要懂得设计思想。 我们看论文是怎么实现动态Batch
2016-06-05 23:35:22 682
原创 Spark定制班第19课:Spark Streaming架构设计和运行机制大总结
本期内容:1. Spark Streaming中的架构设计和运行机制2. Spark Streaming的深度思考1. Spark Streaming中的架构设计和运行机制前面讨论过,Spark Streaming就是RDD加上了时间维度。RDD模板是DStream,DAG的模板是DStreamGraph。但实际上DStream上的操作和RDD上的操作并不是
2016-06-05 23:34:08 526
原创 Spark定制班第18课:Spark Streaming中空RDD处理及流处理程序优雅的停止
本期内容:1 Spark Streaming中的空RDD处理2 Spark Streaming程序的停止1 Spark Streaming中的空RDD处理 在Spark Streaming应用程序中,无论使用什么 DStream,底层实际上就是操作RDD。从一个应用程序片段开始,进行剖析:... val lines = ss
2016-06-05 23:33:25 1846
空空如也
询问:手撕永磁同步电机FOC矢量控制培训讲座
2022-08-19
TA创建的收藏夹 TA关注的收藏夹
TA关注的人