Spark Streaming
tom_8899_li
这个作者很懒,什么都没留下…
展开
-
大数据IMF传奇行动绝密课程第83课:透彻讲解使用Scala和Java两种方式实战Spark Streaming开发
透彻讲解使用Scala和Java两种方式实战Spark Streaming开发/** * java 代码 */ package com.tom.spark.SparkApps.sparkstreaming;import java.util.Arrays;import org.apache.spark.SparkConf;import org.apache.spark.api.java.f原创 2017-03-16 14:59:52 · 746 阅读 · 0 评论 -
大数据IMF传奇行动绝密课程第103课:动手实战Spark Streaming Broadcast、Accumulator实现在线黑名单过滤和计数
动手实战Spark Streaming Broadcast、Accumulator实现在线黑名单过滤和计数1、自定义Receiver分析 2、自定义Receiver实战package com.tom.spark.SparkApps.sparkstreaming;import java.util.Arrays;import java.util.List;import org.apache.hado原创 2017-04-03 22:16:00 · 535 阅读 · 0 评论 -
大数据IMF传奇行动绝密课程第98-99课:使用Spark Streaming实战对论坛网站动态行为的多维度分析
使用Spark Streaming实战对论坛网站动态行为的多维度分析1、技术分析 2、实现实战package com.tom.spark.SparkApps.sparkstreaming;import java.io.PrintWriter;import java.util.HashMap;import java.util.HashSet;import java.util.Map;impo原创 2017-04-03 21:50:49 · 880 阅读 · 0 评论 -
大数据IMF传奇行动绝密课程第104-114课:Spark Streaming电商广告点击综合案例
Spark Streaming电商广告点击综合案例需求分析和技术架构广告点击系统实时分析 广告来自于广告或者移动App等,广告需要设定在具体的广告位,当用户点击广告的时候,一般都会通过ajax或Socket往后台发送日志数据,在这里我们是要做基于SparkStreaming做实时在线统计。那么数据就需要放进消息系统(Kafka)中,我们的Spark Streaming应用程序就会去Kafka中Pu原创 2017-05-05 11:33:40 · 2361 阅读 · 0 评论 -
大数据IMF传奇行动绝密课程第115课:超大规模spark性能优化本质思考
超大规模spark性能优化本质思考在没有数据倾斜的情况下,加大内存和Cores个数是最有效的提升性能的方法 128G内存,16个Core 使用fastutils减少内存使用原创 2017-05-05 11:51:20 · 416 阅读 · 0 评论 -
大数据IMF传奇行动绝密课程第116课:Spark Streaming性能优化:如何在毫秒内处理大吞吐量和数据波动比较大的流计算
Spark Streaming性能优化:如何在毫秒内处理大吞吐量和数据波动比较大的流计算Spark Streaming的处理模式是按照Batch Duration进行Micro Batch Computation的,且如果上一批数据没有处理完的话是不会处理下一批数据的!这会导致几个结果: 第一:如果前面一个Batch数据量突然间特别大的话,就会导致计算的高度延迟,使得当前的Batch不能够得到及时原创 2017-05-05 15:23:50 · 756 阅读 · 0 评论 -
大数据IMF传奇行动绝密课程第117课:Spark Streaming性能优化:如何最大程度的确保Spark Cluster和Kafka连接的稳定性
Spark Streaming性能优化:如何最大程度的确保Spark Cluster和Kafka连接的稳定性Kafka:topic下面有Message,用线程池并发读取数据 调大这两个配置,增加稳定性。由于GC过程可能会很慢,所以适当增加参数值 zookeeper.connection.timeout.ms -> 10000 连接的时候 zookeeper.session.timeout原创 2017-05-05 15:24:45 · 482 阅读 · 0 评论 -
大数据IMF传奇行动绝密课程第118课:Spark Streaming性能优化:如何获得和持续使用足够的集群计算资源
Spark Streaming性能优化:如何获得和持续使用足够的集群计算资源1、Spark Streaming资源使用问题解析 2、如何获得足够和持续稳定的资源?Hadoop2.6.x推出Label based scheduling。Yarn的调度策略中,可以有不同的队列,可用资源可以用标签标记。提交给这个队列的应用程序只能使用这个队列所拥有的标签的计算资源。原创 2017-05-05 15:25:44 · 420 阅读 · 0 评论 -
大数据IMF传奇行动绝密课程第119课:Spark Streaming性能优化:如何在生产环境下应对流数据峰值巨变
Spark Streaming性能优化:如何在生产环境下应对流数据峰值巨变1、数据峰值的巨大影响 2、Spark的Backpressure(反压)内幕Backpressure根据上一个job的统计信息(如delay等),通过自己的算法,来决定下一个Batch Interval的接收速度 如何限制接收速度 反压机制在哪里会有?Driver jobScheduler启动RateControlle原创 2017-05-05 15:27:05 · 429 阅读 · 0 评论 -
大数据IMF传奇行动绝密课程第120课:Spark Streaming性能优化:如何在End-to-End生产环境下安全高效地把结果数据存入HBase中
Spark Streaming性能优化:如何在End-to-End生产环境下安全高效地把结果数据存入HBase中1、生产环境下End-to-End的流处理程序 2、Spark Streaming安全高效写入HBaseSpark Streaming插入HBase之所以高效的原因? 在End to End的流处理程序中为何选择把流处理的结果存放在HBase? 向HBase中存储数据的过程如下:对于原创 2017-05-05 15:32:13 · 835 阅读 · 0 评论 -
第121课:Spark Streaming性能优化:通过摄像头图像处理案例来说明Spark流处理性能评估新方法及性能调优参数调试
通过摄像头图像处理案例来说明Spark流处理性能评估新方法及性能调优参数调试1、Spark Streaming处理摄像头图像 2、Spark Streaming新的性能评估方式 3、Spark Streaming性能调优参数的使用对于图像处理,数据肯定是在RDD中的,Receiver接收到数据后放在缓存中,然后按照特定的时间周期通过BlockManager存储数据,对于图像处理而言,数据肯定是有原创 2017-05-05 15:48:30 · 1167 阅读 · 1 评论 -
第122课:Spark Streaming性能优化:Spark Streaming处理分布式拒绝服务器案例及性能优化
Spark Streaming处理分布式拒绝服务器案例及性能优化1、Spark Streaming处理DDos 2、Spark Streaming处理DDos性能优化反DDos:Pull到Kafka的数据会进行统计(例如基于IP的统计),然后进行分组,然后可能和历史数据集进行匹配,同时会进行流量感知和过滤等。常见的反DDos有标签和异常检测等方式。在处理DDos攻击的时候,肯定会使用到Window原创 2017-05-05 15:51:44 · 454 阅读 · 0 评论 -
第123课:Spark Streaming性能优化:通过Spark Streaming发现botnet及性能优化
通过Spark Streaming发现botnet及性能优化1、Spark Streaming+Machine Learning 2、Spark Streaming发现Botnet(僵尸网络) 3、性能优化数据突然变大使用反压机制(本课时长13min)原创 2017-05-05 15:56:18 · 432 阅读 · 0 评论 -
第125课:Spark Streaming反思和启示:一切皆是流式处理及Spakr Streaming架构和运行机制
一切皆是流式处理及Spakr Streaming架构和运行机制1、一切皆是流式处理的新大数据时代 2、Spark Streaming架构和运行机制数据要流起来。 批处理是流处理的特殊情况原创 2017-05-05 16:01:40 · 514 阅读 · 0 评论 -
第126-134课:Spark Streaming源码经典解读
Spark Streaming源码经典解读一:基于DStream的DStreamGraph源码内幕1、DStream下transformation和action解密 2、DStreamGraph内幕源码解密二:Spark Streaming生成RDD并执行Job源码内幕解密1、DStream产生RDD的案例实战演示 2、DStream作为RDD模板的原理机制 3、常见的DStream生产RDD原创 2017-05-05 16:06:08 · 659 阅读 · 0 评论 -
大数据IMF传奇行动绝密课程第102课:动手实战Spark Streaming自定义Receiver并进行调试和测试
动手实战Spark Streaming自定义Receiver并进行调试和测试1、自定义Receiver分析 2、自定义Receiver实战 http://spark.apache.org/docs/latest/streaming-custom-receivers.html原创 2017-04-03 22:12:02 · 490 阅读 · 0 评论 -
大数据IMF传奇行动绝密课程第100-101课:使用Spark Streaming+Spark SQL+Kafka+FileSystem综合案例
使用Spark Streaming+Spark SQL+Kafka+FileSystem综合案例1、项目分析流程图 2、项目代码实战Flume sink到Kafka需要一个jar包支持 https://github.com/beyondj2ee/flumeng-kafka-plugin/tree/master/flumeng-kafka-plugin编辑flume-conf.properties原创 2017-04-03 22:07:49 · 2796 阅读 · 0 评论 -
大数据IMF传奇行动绝密课程第96课:通过SparkStreaming的foreachRDD把处理后的数据写入外部存储系统中
通过SparkStreaming的foreachRDD把处理后的数据写入外部存储系统中1、技术实现解析 2、实现实战package com.tom.spark.sparkstreamingimport org.apache.spark.{SparkConf, rdd}import org.apache.spark.sql.Rowimport org.apache.spark.sql.hive.原创 2017-04-03 20:30:05 · 551 阅读 · 0 评论 -
大数据IMF传奇行动绝密课程第82课:Spark Streaming案例动手实战并在电光石火间理解其工作原理
Spark Streaming第1课:案例动手实战并在电光石火间理解其工作原理1、Spark Streaming动手实战演示 2、闪电般理解Spark Streaming原理一切都是流处理:交通、金融、工业、电商业务逻辑的计算提前写好。每秒钟都会基于逻辑有一个job,而job的产生是因为RDD的job实例,也就是写的代码是job的类的模板。时间运动,模板就实例化。 RDD的模板就是DStream原创 2016-09-05 21:52:24 · 437 阅读 · 0 评论 -
大数据IMF传奇行动绝密课程第84课:图解StreamingContext、DStream、Receiver并结合源码分析
图解StreamingContext、DStream、Receiver并结合源码分析1、原理流程图 2、源码初探原创 2017-04-03 09:44:40 · 499 阅读 · 0 评论 -
大数据IMF传奇行动绝密课程第85课:基于HDFS的SparkStreaming案例实战和内幕源码解密
基于HDFS的SparkStreaming案例实战和内幕源码解密1、Spark Streaming on HDFS实战 2、Spark Streaming on HDFS源码解密hadoop dfs -mkdir /library/SparkStreaming/CheckPoint_Dataremember 函数,把数据保存久一点ackage com.tom.spark.SparkApps.sp原创 2017-04-03 17:40:58 · 466 阅读 · 0 评论 -
大数据IMF传奇行动绝密课程第86课:SparkStreaming数据源Flume实际案例分享
SparkStreaming数据源Flume实际案例分享1、Flume简要介绍 2、Spark Streaming on Flume案例介绍原创 2017-04-03 19:00:42 · 716 阅读 · 0 评论 -
大数据IMF传奇行动绝密课程第87课:Flume推送数据到Spark Streaming案例实战和内幕源码解密
Flume推送数据到Spark Streaming案例实战和内幕源码解密1、Flume on HDFS案例回顾 2、Flume推送数据到Spark Streaming实战 3、原理绘图剖析 /** * */package com.tom.spark.SparkApps.sparkstreaming;import java.util.Arrays;import org.apache.sp原创 2017-04-03 19:32:41 · 462 阅读 · 0 评论 -
大数据IMF传奇行动绝密课程第88课:SparkStreaming从Flume Poll数据案例实战和内幕源码解密
SparkStreaming从Flume Poll数据案例实战和内幕源码解密1、Spark Steaming on polling from Flume实战 2、Spark Steaming on polling from Flume源码package com.tom.spark.SparkApps.sparkstreaming;import java.util.Arrays;import org原创 2017-04-03 19:40:46 · 455 阅读 · 0 评论 -
大数据IMF传奇行动绝密课程第89课:SparkStreaming On Kafka之kafka解析和安装实战
SparkStreaming On Kafka之kafka解析和安装实战1、Kafka解析 2、Kafka安装实战 Kafka元数据被ZooKeeper管理 Kafka是Scala写的,所以需要安装Scala、Java将slf4j-nop-1.7.6.jar拷贝到kafka的libs目录下,slf4j用于nohup 配置集群中每台机器: 1、配置.bashrcexport KAFKA_HO原创 2017-04-03 19:47:12 · 639 阅读 · 0 评论 -
大数据IMF传奇行动绝密课程第90课:SparkStreaming基于Kafka Receiver案例实战和内幕源码解密
SparkStreaming基于Kafka Receiver案例实战和内幕源码解密1、sparkStreaming on Kafka Receiver工作原理机制 2、sparkStreaming on Kafka Receiver案例实战 3、sparkStreaming on Kafka Receiver源码解析package com.tom.spark.SparkApps.sparkstr原创 2017-04-03 19:51:55 · 631 阅读 · 0 评论 -
大数据IMF传奇行动绝密课程第91课:SparkStreaming基于Kafka Direct案例实战和内幕源码解密
SparkStreaming基于Kafka Direct案例实战和内幕源码解密1、sparkStreaming on Kafka Direct工作原理机制 2、sparkStreaming on Kafka Direct案例实战 3、sparkStreaming on Kafka Direct源码解析package com.tom.spark.SparkApps.sparkstreaming;i原创 2017-04-03 19:58:58 · 704 阅读 · 0 评论 -
大数据IMF传奇行动绝密课程第92课:SparkStreaming中Transformations和状态管理解密
SparkStreaming中Transformations和状态管理解密1、sparkStreaming中的Transformations 2、sparkStreaming中的状态管理详见开发文档~~ http://spark.apache.org/docs/latest/streaming-programming-guide.html原创 2017-04-03 20:17:35 · 310 阅读 · 0 评论 -
大数据IMF传奇行动绝密课程第93课:SparkStreaming updateStateByKey案例实战和内置源码解密
SparkStreaming updateStateByKey案例实战和内置源码解密1、sparkStreaming中的updateStateByKey案例实战 2、sparkStreaming中的updateStateByKey源码解密package com.tom.spark.SparkApps.sparkstreaming;import java.util.Arrays;import ja原创 2017-04-03 20:20:20 · 471 阅读 · 0 评论 -
大数据IMF传奇行动绝密课程第94课:SparkStreaming实现广告计费系统中在线黑名单过滤实战
SparkStreaming实现广告计费系统中在线黑名单过滤实战1、在线广告黑名单过滤实现解析 2、SparkStreaming实现在线黑名单过滤实战package com.tom.spark.sparkstreamingimport org.apache.spark.SparkConfimport org.apache.spark.streaming.{Durations, Streaming原创 2017-04-03 20:24:27 · 739 阅读 · 0 评论 -
大数据IMF传奇行动绝密课程第95课:通过SparkStreaming的window操作实战模拟新浪微博、百度、京东等热点搜索词案例实战
通过SparkStreaming的window操作实战模拟新浪微博、百度、京东等热点搜索词案例实战1、在线热点搜索词实现解析 2、SparkStreaming实现在线热点搜索词实战package com.tom.spark.sparkstreamingimport org.apache.spark.SparkConfimport org.apache.spark.streaming.{Durat原创 2017-04-03 20:28:02 · 604 阅读 · 0 评论 -
大数据IMF传奇行动绝密课程第97课:使用SparkStreaming+SparkSQL实现在线动态计算出特定时间窗口
使用SparkStreaming+SparkSQL实现在线动态计算出特定时间窗口下的不同种类商品中的热门商品排名1、Streaming+SQL技术实现解析 2、Streaming+SQL实现实战启动hive metastorehive --service metastore &package com.tom.spark.sparkstreamingimport org.apache.spark.{原创 2017-04-03 21:05:50 · 669 阅读 · 0 评论 -
第124课:Spark Streaming性能优化:通过Spark Streaming进行设备日志监控报警及性能优化
通过Spark Streaming进行设备日志监控报警及性能优化1、Spark Streaming进行设备监控及报警 2、Spark Streaming进行设备监控性能优化ELK Stack:一整套开源的日志处理平台解决方案,可以集日志的采集、检索、可视化于一身,真正的处理现在的首选是Spark Streaming,中间件为Kafka用于做ELK和Spark Streaming之间的适配,关键的地原创 2017-05-05 16:00:58 · 1233 阅读 · 0 评论