自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(16)
  • 资源 (3)
  • 收藏
  • 关注

原创 Spark定制班第33课:Kafka内核再解密

本期内容:1. Kafka:最快的消息系统2. Kafka内核内幕Kafka第一设计原则是消息的传送速度。3台普通的server可以达到百万条消息/秒。Kafka的消息存储能力是无限的。使用了的数据是保存在consumer上。分布式的实时消息来源。由于是在前面取出数据,在后面追加数据,无需加锁,磁盘顺序查询,寻道时间很快,比随机查询快很多,据说快一万倍。 可以有任意规模的pro

2016-06-28 18:38:51 474

原创 Spark定制班第32课:Kafka原理内幕和集群构建与测试实战

本期内容:1. Kafka原理内幕2. Kafka集群实战Spark Streaming是处理层面的,Kafka相当于流程控制和数据控制的层面。Kafka就是消息中间件。分布式的,可以扩展规模。可以对消息持久化。默认是7天,意思是,不管是否已消费,消息7天之后会被删除。有队列方式,也有发布者和订阅者方式。事务方面,kafka不行。是个粘合器,打破信息孤岛。Kafka观点

2016-06-24 10:12:58 664

原创 Spark定制班第31课:集群运行模式下的Spark Streaming调试和难点解决实战经验分享

本期内容:1. 集群模式下的Spark Streaming调试2. 集群模式下的Spark Streaming难点解决案例分享怎么找出前课想象的原因?每个batch duration内的处理中,saveAsTextFiles只有一个job。reduceByKey的并行度改为8,shuffle时也确实有8个task。虽然设置job并行度是1,但日志中显示每个batch d

2016-06-24 10:12:13 937

原创 Spark定制班第30课:集群运行模式下的Spark Streaming日志和Web监控台实战演示彻底解密

本期内容:1. 集群模式下的Spark Streaming日志2. 集群模式下的Spark Streaming Web监控台NetworkWordCount程序 batch duration设置300秒。job并行度为1。4个worker的集群。看web控制台知道,如果不输入数据,Receiver就没有计算任务。数据处理的任务中socket text strearm

2016-06-24 10:11:30 564

原创 Spark定制班第29课:深入理解Spark 2.x中的Structured Streaming内幕

本期内容:1. 新型的Spark Streaming思维2. Structured Streaming内幕Spark 2.0 仍有bug,不适合于生成环境。只用于测试。Spark 2.X提出了continuous application(连续的应用程序)的概念,非常重大。如图例所示,数据通过Kafka流进来,经过ETL,SS把数据看成一张表。一张没有边际的表、

2016-06-24 10:10:35 3482

原创 Spark定制班第28课:在集成开发环境中详解Spark Streaming的运行日志内幕

本期内容:1. Spark Streaming日志2. Spark Streaming在IDE中的日志分析 WordCountLine15秒钟的时间间隔日志中ForeachDStream先打印。SocketInputDStream storage level false,false,false,false,1但StorageLevel:remembe

2016-06-24 10:02:35 707

原创 Spark定制班第27课:Spark Streaming的为什么在DStream的Action操作之外也可能产生Job操作

本期内容:1. Spark Streaming产生Job的机制2. Spark Streaming的其它产生Job的方式 1. Spark Streaming产生Job的机制Scala程序中,函数可以作为参数传递,因为函数也是对象。有函数对象不意味着函数马上就运行。Spark Streaming中,常利用线程的run来调用函数,从而导致函数的最终运行。S

2016-06-24 10:01:23 1253

原创 Spark定制班第26课:Spark Streaming的JobGenerator源码图解

本期内容:1. JobGenerator源码2. JobGenerator图解第6课曾经对JobGenarator生成Job的主要流程进行过一些剖析。这次在原有基础上做一些补充。第6课给出了以下生成Job的相关类的主流程图:以下图也给出了JobGenerator的更多的工作流程供参考:JobGenerator用于从DStream产生作

2016-06-23 21:35:18 576

原创 Spark定制班第25课:Spark Streaming的StreamingContext启动及JobScheduler启动源码图解

本期内容:1. StreamingContext启动源码图解2. JobScheduler启动源码图解StreamingContext的start方法对INITIALIZED、ACTIVE、STOPPED等状态分别做不同处理。StreamingContext在INITIALIZED状态时,用validate方法对DStreamGraph、checkpoint等做有效检查,然

2016-06-12 12:38:43 566

原创 Spark定制班第24课:Spark Streaming的Transformation、Action、Input和Output源码图解

本期内容:1. Spark Streaming的Transformation、Action源码图解2. Spark Streaming的Input、Output源码图解StreamingContext成员:socketStream  /**   * Create a input stream from TCP source hostname:port

2016-06-12 12:37:25 837

原创 Spark定制班第23课:Spark Streaming初始化和关闭源码图解

本期内容:1. Spark Streaming初始化源码图解2. Spark Streaming关闭源码图解Spark Streaming的StreamingContext是采用装饰器模式,对SparkContext的封装。是在Spark Core的基础上加了一些功能,所有的实际上还是用Spark Core去实现。batchDuration是在Spark Core的基础上新

2016-06-12 12:36:02 1053

原创 Spark定制班第22课:Spark Streaming架构源码图解

本期内容:1. Spark Streaming再思考2. Spark Streaming架构源码图解Spark Streaming的基本架构可以类比食物的消化,来理解流数据的处理。Spark Streaming有多种数据源,流进Spark集群。Spark集群的Receiver收到通讯后,通过RPC通讯机制给Driver,Driver的DStream按照时间进

2016-06-12 12:34:24 553

原创 Spark定制班第21课:Spark Streaming中动态Batch Size深入及RateController解析

本期内容:1. 动态Batch Size深入2. RateController解析1. 动态Batch Size深入Dynamic Batch Size的方法实际在Spark Streaming中还没实现。论文中的解决方案:Fixex-point Iteration。论文中有个比较重要的图:基本思想:按100ms的批次发数据给Controll

2016-06-07 20:42:49 2344

原创 Spark定制班第20课:Spark Streaming中动态Batch Size实现初探

本期内容:1. Batch Duration与Process Time2. 动态Batch Size  不要低估Batch Duration与Process Time匹配的问题。两者关系不是线性规律。不是数据量大,就简单加大Batch Duration来解决问题。前面推荐的论文很重要。参加定制班,不是简单学编程,要懂得设计思想。  我们看论文是怎么实现动态Batch

2016-06-05 23:35:22 681

原创 Spark定制班第19课:Spark Streaming架构设计和运行机制大总结

本期内容:1. Spark Streaming中的架构设计和运行机制2. Spark Streaming的深度思考1. Spark Streaming中的架构设计和运行机制前面讨论过,Spark Streaming就是RDD加上了时间维度。RDD模板是DStream,DAG的模板是DStreamGraph。但实际上DStream上的操作和RDD上的操作并不是

2016-06-05 23:34:08 526

原创 Spark定制班第18课:Spark Streaming中空RDD处理及流处理程序优雅的停止

本期内容:1 Spark Streaming中的空RDD处理2 Spark Streaming程序的停止1 Spark Streaming中的空RDD处理     在Spark Streaming应用程序中,无论使用什么 DStream,底层实际上就是操作RDD。从一个应用程序片段开始,进行剖析:...    val lines = ss

2016-06-05 23:33:25 1846

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除