Spark+SparkStreaming+ML系
主要讲解Spark内核和Spark sql+Spark Streaming流式处理系列,后期可能会加入机器学习的部分
Android进阶
改变是痛苦的,但是不改变,未来更痛苦!
展开
-
第92讲 SparkStreming中的Transformations和状态管理
本期内容:1.SparkStreaming中的Transforamtions2.SparkStreaming中的状态管理一.DStream就是一个RDD之上的一个抽象,DStream和时间结合起来就不断的触发产生RDD的实例,可以说我们对Dstream的操作就初步定义了对RDD的操作,只不过需要时间的间隔也就是internalbatch去激活这个模板,生成具体的RDD的实例和具体的jo原创 2016-05-10 11:45:57 · 1718 阅读 · 0 评论 -
第87讲:Flume推送数据到SparkStreaming案例实战和内幕源码解密
本期内容:1. Flume on HDFS案例回顾2. Flume推送数据到Spark Streaming实战3. 原理绘图剖析1. Flume on HDFS案例回顾上节课要求大家自己安装配置Flume,并且测试数据的传输。我昨天是要求传送的HDFS上。文件配置:~/.bashrc:export FLUME_HOME=/usr/lo原创 2016-04-26 14:54:55 · 1165 阅读 · 0 评论 -
第84讲:StreamingContext、DStream、Receiver深度剖析
本课分成四部分讲解,第一部分对StreamingContext功能及源码剖析;第二部分对DStream功能及源码剖析;第三部分对Receiver功能及源码剖析;最后一部分将StreamingContext、DStream、Receiver结合起来分析其流程。一、StreamingContext功能及源码剖析:1、 通过Spark Streaming对象jssc,创建应用程序主入口原创 2016-04-26 14:59:38 · 1722 阅读 · 0 评论 -
第86讲:SparkStreaming数据源Flume实际案例分享
一、什么是Flume? flume 作为 cloudera 开发的实时日志收集系统,受到了业界的认可与广泛应用。Flume 初始的发行版本目前被统称为 Flume OG(original generation),属于 cloudera。但随着 FLume 功能的扩展,Flume OG 代码工程臃肿、核心组件设计不合理、核心配置不标准等缺点暴露出来,尤其是在 Flume OG 的最后一个发行版原创 2016-04-26 15:02:12 · 1957 阅读 · 0 评论 -
第93讲:Spark Streaming updateStateByKey案例实战和内幕源码
本节课程主要分二个部分:一、Spark Streaming updateStateByKey案例实战二、Spark Streaming updateStateByKey源码解密第一部分:updateStateByKey它的主要功能是随着时间的流逝,在Spark Streaming中可以为每一个key可以通过CheckPoint来维护一份state状态,通过更新函数对该k原创 2016-05-11 07:17:43 · 9924 阅读 · 0 评论 -
第85讲:基于HDFS的SparkStreaming案例实战和内幕源码解密
一:Spark集群开发环境准备启动HDFS,如下图所示: 通过web端查看节点正常启动,如下图所示:2.启动Spark集群,如下图所示:通过web端查看集群启动正常,如下图所示:3.启动start-history-server.sh,如下图所示:二:HDFS的SparkStreaming案例实战(代码部分)原创 2016-04-26 15:01:27 · 2549 阅读 · 0 评论 -
Maven配置和打包以及使用Eclipse构建Maven项目
Maven这个个项目管理和构建自动化工具,越来越多的开发人员使用它来管理项目中的jar包。本文仅对Eclipse中如何安装、配置和使用Maven进行了介绍。完全step by step。如果觉得本文对你有用,请移步到:http://download.csdn.net/detail/qjyong/5582071 下载PDF版,http://download.csdn.net/de原创 2016-05-05 16:26:46 · 8238 阅读 · 2 评论 -
linux下多节点之间,免密钥访问实现
说明:目前安装了4个Redhat linux操作系统,主机名分别为hadoop01,hadoop02,hadoop03,hadoop04其中hadoop01为主节点,hadoop02,hadoop03,hadoop04为从节点四个节点ip地址为192.168.10.61~64.如果不修改hosts文件,从第二部开始可将hadoop01~04改为所对应的ip地址,如第4步中的scp ~/.s原创 2016-05-05 17:05:57 · 3601 阅读 · 0 评论 -
第83讲:Scala和Java二种方式实战Spark Streaming开发
一、Java方式开发1、开发前准备:假定您以搭建好了Spark集群。2、开发环境采用eclipse maven工程,需要添加Spark Streaming依赖。3、Spark streaming 基于Spark Core进行计算,需要注意事项:设置本地master,如果指定local的话,必须配置至少二条线程,也可通过sparkconf来设置,因为Spark原创 2016-04-26 14:58:15 · 3071 阅读 · 0 评论 -
第91讲:sparkStreaming基于kafka的Direct详解
1:Direct方式特点:1)Direct的方式是会直接操作kafka底层的元数据信息,这样如果计算失败了,可以把数据重新读一下,重新处理。即数据一定会被处理2)由于直接操作的是kafka,kafka就相当于你底层的文件系统。这个时候能保证严格的事务一致性,即一定会被处理,而且只会被处理一次。而Receiver的方式则不能保证,因为Receiver和ZK中的数据可能不同步,spark St原创 2016-05-07 22:47:45 · 7561 阅读 · 0 评论 -
第90讲,Spark streaming基于kafka 以Receiver方式获取数据 原理和案例实战
1:SparkSteaming基于kafka的方式,主要有俩种,即Receiver和Derict,基于Receiver的方式,是sparkStreaming给我们提供了kafka访问的高层api的封装,而基于Direct的方式,就是直接访问,在sparkSteaming中直接去操作kafka中的数据,不需要前面的高层api的封装。而Direct的方式,可以进行更好的控制!2:实际上做kafka原创 2016-05-07 20:47:14 · 6890 阅读 · 1 评论 -
第89讲:Spark Streaming on Kafka解析和安装实战
本课分2部分讲解:第一部分,讲解Kafka的概念、架构和用例场景;第二部分,讲解Kafka的安装和实战。由于时间关系,今天的课程只讲到如何用官网的例子验证Kafka的安装是否成功。后续课程会接着讲解如何集成Spark Streaming和Kafka。一、Kafka的概念、架构和用例场景http://kafka.apache.org/documentation原创 2016-04-26 15:03:51 · 1815 阅读 · 0 评论 -
第88讲:Spark Streaming从Flume Poll数据
本节课分成二部分讲解:一、Spark Streaming on Polling from Flume实战二、Spark Streaming on Polling from Flume源码第一部分:推模式(Flume push SparkStreaming) VS 拉模式(SparkStreaming poll Flume)采用推模式:推模式的理解就是Flum原创 2016-05-03 11:36:34 · 3554 阅读 · 0 评论