snail_gesture的博客

Deep Learning|Machine Learning|Spark

排序:
默认
按更新时间
按访问量

Window下XGBoost安装

本文主要是对XGBoost安装进行介绍。在正文开始前,需要安装一些前置软件如下: - Git - MINGW下面开始正文介绍。1.首先创建XGBoost安装目录文件,然后在该目录下面启动git bash.E:\Xgboost2.然后执行如下命令。$ git clone --recursive h...

2017-07-31 19:53:46

阅读数:1301

评论数:1

Spark Streaming性能优化系列-如何获得和持续使用足够的集群计算资源?

一:数据峰值的巨大影响 1. 数据确实不稳定,例如晚上的时候访问流量特别大 2. 在处理的时候例如GC的时候耽误时间会产生delay延迟二:Backpressure:数据的反压机制 基本思想:根据上一次计算的Job的一些信息评估来决定下一个Job数据接收的速度。 如何限制S...

2016-06-17 15:23:29

阅读数:5907

评论数:3

Spark Streaming资源动态申请和动态控制消费速率原理剖析

为什么需要动态? a) Spark默认情况下粗粒度的,先分配好资源再计算。对于Spark Streaming而言有高峰值和低峰值,但是他们需要的资源是不一样的,如果按照高峰值的角度的话,就会有大量的资源浪费。 b) Spark Streaming不断的运行,对资源消耗和管理也是我们要考虑的...

2016-05-31 09:35:27

阅读数:3077

评论数:0

Spark Streaming源码解读之数据清理内幕彻底解密

本篇博客的主要目的是: 1. 理清楚Spark Streaming中数据清理的流程组织思路如下: a) 背景 b) 如何研究Spark Streaming数据清理? c) 源码解析一:背景 Spark Streaming数据清理的工作无论是在实际开发中,还是自己动手实践中都...

2016-05-29 16:48:50

阅读数:3822

评论数:0

Spark Streaming源码解读之No Receivers详解

背景: 目前No Receivers在企业中使用的越来越多。No Receivers具有更强的控制度,语义一致性。No Receivers是我们操作数据来源自然方式,操作数据来源使用一个封装器,且是RDD类型的。所以Spark Streaming就产生了自定义RDD –> KafkaRDD...

2016-05-28 16:11:49

阅读数:2131

评论数:0

Spark Streaming源码解读之State管理之updateStateByKey和mapWithState解密

背景: 整个Spark Streaming是按照Batch Duractions划分Job的。但是很多时候我们需要算过去的一天甚至一周的数据,这个时候不可避免的要进行状态管理,而Spark Streaming每个Batch Duractions都会产生一个Job,Job里面都是RDD,所...

2016-05-26 21:12:19

阅读数:5195

评论数:0

Spark Streaming源码解读之Driver容错安全性

本篇博文的目标如下: 1. ReceiverBlockTracker容错安全性 2. DStream和JobGenerator容错安全性文章的组织思路如下: 考虑Driver容错安全性,我们要思考什么? 再详细分析ReceiverBlockTracker,DStream和JobGe...

2016-05-24 19:32:11

阅读数:10449

评论数:4

Spark Streaming源码解读之Executor容错安全性

本篇博文的目标是 1. Executor的WAL机制详解 2. 消息重放Kafka数据安全性的考虑: Spark Streaming不断的接收数据,并且不断的产生Job,不断的提交Job给集群运行。所以这就涉及到一个非常重要的问题数据安全性。 Spark Streaming是基于Spark...

2016-05-24 15:22:36

阅读数:10218

评论数:0

Spark Streaming源码解读之Driver中的ReceiverTracker详解

本篇博文的目标是: Driver的ReceiverTracker接收到数据之后,下一步对数据是如何进行管理一:ReceiverTracker的架构设计 1. Driver在Executor启动Receiver方式,每个Receiver都封装成一个Task,此时一个Job中就一个Task,而T...

2016-05-24 08:33:09

阅读数:10668

评论数:0

Spark Streaming源码解读之流数据不断接收详解

特别说明: 在上一遍文章中有详细的叙述Receiver启动的过程,如果不清楚的朋友,请您查看上一篇博客,这里我们就基于上篇的结论,继续往下说。博文的目标是: Spark Streaming在接收数据的全生命周期贯通组织思路如下: a) 接收数据的架构模式的设计 b) 然后再具体源码分析...

2016-05-23 08:56:35

阅读数:12536

评论数:0

Spark Streaming源码解读之Receiver在Driver详解

一:Receiver启动的方式设想 1. Spark Streaming通过Receiver持续不断的从外部数据源接收数据,并把数据汇报给Driver端,由此每个Batch Durations就可以根据汇报的数据生成不同的Job。 2. Receiver属于Spark Streaming应...

2016-05-20 13:43:19

阅读数:13762

评论数:1

Spark Streaming源码解读之RDD生成全生命周期详解

本篇博客将详细探讨DStream模板下的RDD是如何被创建,然后被执行的。在开始叙述之前,先来思考几个问题,本篇文章也就是基于此问题构建的。 1. RDD是谁产生的? 2. 如何产生RDD? 带着这两个问题开启我们的探索之旅。 一:实战WordCount源码如下:object Wo...

2016-05-18 22:16:47

阅读数:3620

评论数:2

Spark Streaming源码解读之JobScheduler详解

一:JobSheduler的源码解析 1. JobScheduler是Spark Streaming整个调度的核心,相当于Spark Core上的DAGScheduler. 2. Spark Streaming为啥要设置两条线程? setMaster指定的两条线程是指程序运行的时候至少需...

2016-05-18 22:04:35

阅读数:1982

评论数:0

Spark Streaming源码解读之Job详解

一:Spark Streaming Job生成深度思考 1. 做大数据例如Hadoop,Spark等,如果不是流处理的话,一般会有定时任务。例如10分钟触发一次,1个小时触发一次,这就是做流处理的感觉,一切不是流处理,或者与流处理无关的数据都将是没有价值的数据,以前做批处理的时候其实也是隐形的...

2016-05-15 16:53:43

阅读数:13452

评论数:1

Spark Streaming的Exactly-One的事务处理和不重复输出详解

本篇博文组织形式如下: 一:Exactly-One的事务处理 二:输出不重复一:Exactly-One的事务处理 一:Exactly-One的事务处理 1. 什么是事务处理: a) 能够处理且只被处理一次。例如,银行转账,A转给B,A有且仅转一次。 b) 能够输出,且只能够输出一...

2016-05-10 23:02:53

阅读数:5477

评论数:0

Spark Streaming基于案例详解

本篇博文将从如下几点组织文章: 一:案例演示 二:源码分析一:案例演示 这里只是贴出源码,后续会对改代码的实战和实验演示都会详细的补充。package com.dt.spark.sparkstreaming import org.apache.spark.SparkConf import o...

2016-05-10 22:35:44

阅读数:8559

评论数:0

SparkStreaming运行机制和架构详解

本篇博文将从以下几点组织文章: 1. 解密Spark Streaming运行机制 2. 解密Spark Streaming架构 一:解密Spark Streaming运行机制 1. DAG生成模板 :DStreamGrapha) Spark Streaming中不断的有数据流进来,...

2016-05-08 14:36:38

阅读数:3504

评论数:0

SparkStreaming on Kafka之Kafka解析和安装实战

本篇博文将从以下方面组织内容: 1. Kafka解析 2. 消息组件Kafka 3. Kafka安装 实验搭建所需要的软件: kafka_2.10-0.9.0.1 Zookeeper集群已经安装好。在上一篇...

2016-05-08 10:13:49

阅读数:4244

评论数:0

Spark搭建HA详解

实验环境: zookeeper-3.4.6 Spark:1.6.0 简介: 本篇博客将从以下几点组织文章: 一:Spark 构建高可用HA架构 二:动手实战构建高可用HA 三:提交程序测试HA一:Spark 构建高可用HA架构 Spark本身是Master和Slav...

2016-05-07 11:30:55

阅读数:5804

评论数:0

Spark Streaming入门详解

背景: 使用Spark主要是使用Spark Streaming,Spark Streaming的魔力之所在于: 1. 流式处理,如今是一个流处理时代,一切与流不相关的都是无效的数据。 2. 流式处理才是真正的对大数据的印象。Spark Streaming的流式处理非常...

2016-05-06 11:35:15

阅读数:3873

评论数:2

提示
确定要删除当前文章?
取消 删除
关闭
关闭