Spark
文章平均质量分 60
技术蚂蚁
这个作者很懒,什么都没留下…
展开
-
源码-Spark Master(2)
继续上一篇的内容。上一篇的内容为: 源码-spark Master(1) http://blog.csdn.net/u011007180/article/details/524219294.receive方法,receive方法中消息类型主要分为以下12种情况:(1)重新选择了新Leader,进行数据的恢复(2)恢复完毕,重新创建Driver,完成资源的重新分配(转载 2016-09-03 11:28:50 · 323 阅读 · 0 评论 -
spark-Storage 模块整体架构
Storage模块负责了Spark计算过程中所有的存储,包括基于Disk的和基于Memory的。用户在实际编程中,面对的是RDD,可以将RDD的数据通过调用org.apache.spark.rdd.RDD#cache将数据持久化;持久化的动作都是由Storage模块完成的。包括Shuffle过程中的数据,也都是由Storage模块管理的。各个主要类的功能说明:1) org.转载 2016-09-04 12:48:49 · 269 阅读 · 0 评论 -
详细探究Spark的shuffle实现
Background在MapReduce框架中,shuffle是连接Map和Reduce之间的桥梁,Map的输出要用到Reduce中必须经过shuffle这个环节,shuffle的性能高低直接影响了整个程序的性能和吞吐量。Spark作为MapReduce框架的一种实现,自然也实现了shuffle的逻辑,本文就深入研究Spark的shuffle是如何实现的,有什么优缺点,与Hadoop Ma转载 2016-09-04 21:12:35 · 857 阅读 · 0 评论 -
SparkML实战之一:线性回归
package class8import org.apache.log4j.{Logger, Level}import org.apache.spark.{SparkConf, SparkContext}import org.apache.spark.mllib.linalg.Vectorsimport org.apache.spark.mllib.regression.{LinearR转载 2016-08-27 07:17:28 · 685 阅读 · 0 评论 -
SparkMLlib之二Basic Stastics
http://blog.csdn.net/u012432611/article/details/50506296转载 2016-08-27 07:32:52 · 380 阅读 · 0 评论 -
SparkMLlib之一Data Types
http://blog.csdn.net/u012432611/article/details/50506151转载 2016-08-27 07:33:49 · 375 阅读 · 0 评论 -
SparkMLlib之三:协同过滤
http://blog.csdn.net/u012432611/article/details/50506380转载 2016-08-27 07:34:39 · 358 阅读 · 0 评论 -
SparkMLlib之四:Linear Methods
http://blog.csdn.net/u012432611/article/details/50512813转载 2016-08-27 07:35:33 · 415 阅读 · 0 评论 -
SparkML实战之二:Kmeans
http://blog.csdn.net/u012432611/article/details/50515180转载 2016-08-27 07:37:09 · 411 阅读 · 0 评论 -
SparkML实战之三:Logistic回归
http://blog.csdn.net/u012432611/article/details/50515196转载 2016-08-27 07:37:59 · 449 阅读 · 0 评论 -
YARN工作流程
当用户向YARN中提交一个应用程序后,YARN将分两个阶段运行该应用程序:第一个阶段是启动ApplicationMaster;第二个阶段是由ApplicationMaster创建应用程序,为它申请资源,并监控它的整个运行过程,直到运行完成。如图2-11所示,YARN的工作流程分为以下几个步骤: 步骤1 用户向YARN中提交应用程序,其中包括Applicati转载 2016-09-03 20:32:45 · 1172 阅读 · 0 评论 -
Spark运行架构
转载:http://www.cnblogs.com/shishanyuan/archive/2015/08/19/4721326.html1、 Spark运行架构1.1 术语定义lApplication:Spark Application的概念和Hadoop MapReduce中的类似,指的是用户编写的Spark应用程序,包含了一个Driver 功能的代码和分布在集群中多个节点上运行的转载 2016-09-03 17:15:05 · 398 阅读 · 0 评论 -
源码-Spark中Worker源码分析(一)
Worker作为对于Spark集群的健壮运行起着举足轻重的作用,作为Master的奴隶,每15s向Master告诉自己还活着,一旦主人(Master》有了任务(Application),立马交给属于它的奴隶们(Workers),那么奴隶们就会数数自己有多少家当(比如内存、核数),量力而行地交给主人完成的任务,如果奴隶不量力而行在执行任务过程中不幸死了的话,作为主人的Master只会等待60s,如果转载 2016-09-03 11:30:50 · 260 阅读 · 0 评论 -
源码- Spark中Worker源码分析(二)
继续前一篇的内容。前一篇内容为: Spark中Worker源码分析(一)http://www.cnblogs.com/yourarebest/p/5300202.html4.receive方法, receive方法主要分为以下14种情况:(1)worker向master注册成功后,详见代码 (2)worker向master发送心跳消息,如果还没有注册到master上,该消息将被转载 2016-09-03 11:32:22 · 439 阅读 · 0 评论 -
源码-spark client(1)
在Spark Standalone中我们所谓的Client,它的任务其实是由AppClient和DriverClient共同完成的。AppClient是一个允许app(Client)和Spark集群通信的中间人,接受master URL、app的信息、一个集群事件的监听器以及事件监听的回调函数,主要和Master交互App相关的信息,DriverClient主要用于和Master交互Driver相转载 2016-09-03 11:35:57 · 222 阅读 · 0 评论 -
源码-spark client(2)
DriverClient中的代码比较简单,它只有一个main函数,同时,和AppClient一样,它也有一个ClientEndpoint,只是两者的用途不一样。1.ClientClient中唯一的main方法如下:def main(args: Array[String]) {if (!sys.props.contains("SPARK_SUBMIT")) {printl转载 2016-09-03 11:37:35 · 325 阅读 · 0 评论 -
源码-spark Standalone部署模式及其容错性分析
欢迎转载,转载请注明出处,徽沪一郎。概要本文就standalone部署方式下的容错性问题做比较细致的分析,主要回答standalone部署方式下的包含哪些主要节点,当某一类节点出现问题时,系统是如何处理的。Standalone部署的节点组成介绍Spark的资料中对于RDD这个概念涉及的比较多,但对于RDD如何运行起来,如何对应到进程和线程的,着墨的不是很多。在实际的生产环境转载 2016-09-03 12:40:20 · 733 阅读 · 0 评论 -
Spark的资源管理以及YARN-Cluster Vs YARN-Client
原文:http://blog.cloudera.com/blog/2014/05/apache-spark-resource-management-and-yarn-app-models/对于Mapreduce来说,最高级别的计算单元是Job。系统加载数据,执行Map定义的处理逻辑,shuffle Map的输出,再执行Reduce定义的处理逻辑,最后把reduce的结果写回持久化的存储转载 2016-09-03 14:55:05 · 4722 阅读 · 0 评论 -
在Eclipse上运行Spark(Standalone,Yarn-Client)
接上一篇:我们知道有eclipse的Hadoop插件,能够在eclipse上操作hdfs上的文件和新建mapreduce程序,以及以Run On Hadoop方式运行程序。那么我们可不可以直接在eclipse上运行Spark程序,提交到集群上以YARN-Client方式运行,或者以Standalone方式运行呢?答案是可以的。下面我来介绍一下如何在eclipse上运行Spark的w转载 2016-09-03 15:36:09 · 1058 阅读 · 0 评论 -
源码-Spark on Yarn
接上一篇:Spark的资源管理以及YARN-Cluster Vs YARN-Client下面是Spark On Yarn的流程图:上图比较只管的看到到了流程,下面具体看几个源码Client在Client类中的main方法实例话Client:new Client(args, sparkConf).run()。在run方法中,又调用了val appId = runApp转载 2016-09-03 15:41:29 · 1406 阅读 · 0 评论 -
Spark中Master、Worker、Client通信示意图
1.Master和Worker之间的消息传递示意图2.Master和Client之间的消息传递示意图这几天主要都是基于Standalone分析的,最后以两张图完美收工原文地址:http://www.cnblogs.com/yourarebest/p/5313056.html转载 2016-09-03 11:39:26 · 2459 阅读 · 0 评论 -
SparkML实战之四:回归
http://blog.csdn.net/u012432611/article/details/50515243转载 2016-08-27 07:38:46 · 428 阅读 · 0 评论 -
SparkML实战之五:SVM
http://blog.csdn.net/u012432611/article/details/50515312转载 2016-08-27 07:39:42 · 425 阅读 · 0 评论 -
SparkMLlib之六:Clustering
http://blog.csdn.net/u012432611/article/details/50528133转载 2016-08-27 07:40:23 · 455 阅读 · 0 评论 -
Spark Streaming 自适应上游 kafka topic partition 数目变化
背景Spark Streaming 作业在运行过程中,上游 topic 增加 partition 数目从 A 增加到 B,会造成作业丢失数据,因为该作业只从 topic 中读取了原来的 A 个 partition 的数据,新增的 B-A 个 partition 的数据会被忽略掉。思考过程为了作业能够长时间的运行,一开始遇到这种情况的时候,想到两种方案:感知上游 to转载 2016-11-24 22:45:57 · 3606 阅读 · 1 评论 -
spark+kafka+Elasticsearch单机环境的部署和性能测试
spark+kafka+Elasticsearch单机环境的部署和性能测试字数306 阅读148 评论0 喜欢4版本选型spark 1.5.2 + kafka 0.9.0.1 + Elasticsearch 2.2.1安装部署1. 安装脚本及文件 密码 4m7l安装脚本和服务都是单机简化版,没有保护机制。有兴趣的朋友可以一起写一个集群转载 2016-11-24 22:54:23 · 2449 阅读 · 0 评论 -
spark 核心作业调度和任务调度
摘要:基本概念 1.1 Application 1.2 Job 1.3 Stage 1.4 TaskSet 1.5 Task 1.6 DAG 2.相关的类 2.1DAGScheduler 2.2ActiveJob 2.3S转载 2016-11-24 23:08:56 · 3711 阅读 · 0 评论 -
Spark累加器(Accumulator)陷阱及解决办法
Accumulator简介Accumulator是spark提供的累加器,顾名思义,该变量只能够增加。只有driver能获取到Accumulator的值(使用value方法),Task只能对其做增加操作(使用 +=)。你也可以在为Accumulator命名(不支持Python),这样就会在spark web ui中显示,可以帮助你了解程序运行的情况。Accumulator使转载 2016-12-08 06:59:32 · 439 阅读 · 0 评论 -
spark rdd checkpoint的用法注意点
/** * Mark this RDD for checkpointing. It will be saved to a file inside the checkpoint * directory set with `SparkContext#setCheckpointDir` and all references to its parent * RDDs will be转载 2016-12-08 07:16:57 · 529 阅读 · 0 评论 -
Spark的位置优先: TaskSetManager 的有效 Locality Levels
在Spark Application Web UI的 Stages tag 上,我们可以看到这个的表格,描述的是某个 stage 的 tasks 的一些信息,其中 Locality Level 一栏的值可以有PROCESS_LOCAL、NODE_LOCAL、NO_PREF、RACK_LOCAL、ANY 几个值。这篇文章将从这几个值入手,从源码角度分析 TaskSetManager 的 Loca转载 2016-12-08 20:12:00 · 684 阅读 · 0 评论 -
flume + kafka + sparkStreaming + HDFS 构建实时日志分析系统
搭建前提:Hadoop2.6、spark1.6-hadoop-2.6集群都是正确搭建并可运行一 、需求描述 日志文件预处理:运营商数据 kafka做队列缓冲 flume分发 streaming计算 HDFS存储二、 系统搭建No.1 flume-ng 1.6集群 1.下载安装并配置好flume的运行环境2.编写配置文件# ---转载 2017-03-10 20:53:15 · 2011 阅读 · 0 评论 -
SparkStreaming之窗口函数
WindowOperations(窗口操作) Spark还提供了窗口的计算,它允许你使用一个滑动窗口应用在数据变换中。下图说明了该滑动窗口。如图所示,每个时间窗口在一个个DStream中划过,每个DSteam中的RDD进入Window中进行合并,操作时生成为窗口化DSteam的RDD。在上图中,该操作被应用在过去的3个时间单位的数据,和划过了2个转载 2017-03-12 10:42:07 · 746 阅读 · 0 评论 -
Spark常用函数讲解之键值RDD转换
摘要:RDD:弹性分布式数据集,是一种特殊集合 ‚ 支持多种来源 ‚ 有容错机制 ‚ 可以被缓存 ‚ 支持并行操作,一个RDD代表一个分区里的数据集RDD有两种操作算子: Transformation(转换):Transformation属于延迟计算,当一个RDD转换成另一个RDD时并没有立即进行转换,仅仅是记住 了数据集的逻辑操作转载 2017-03-12 21:21:09 · 382 阅读 · 0 评论 -
Spark SQL的例子
package com.asto.lucius.spark.sparksqlimport org.apache.spark.{SparkContext, SparkConf}/** * Created by Administrator on 2015/7/7. */object TestSQL { case class Trade(user_id: String, create_t转载 2016-11-22 20:41:24 · 373 阅读 · 0 评论 -
Flume+Kafka+Spark-Streaming的实时流式处理完整流程
基于Flume+Kafka+Spark-Streaming的实时流式处理完整流程1、环境准备,四台测试服务器spark集群三台,spark1,spark2,spark3kafka集群三台,spark1,spark2,spark3zookeeper集群三台,spark1,spark2,spark3日志接收服务器, spark1日志收集服务器,Redis转载 2016-11-30 19:24:50 · 632 阅读 · 0 评论 -
Spark canopy算法
http://blog.csdn.net/u012432611/article/details/50528666转载 2016-08-27 07:41:05 · 719 阅读 · 0 评论 -
零售户聚类改善
http://blog.csdn.net/u012432611/article/details/50575653转载 2016-08-27 07:41:49 · 363 阅读 · 0 评论 -
零售户决策树分类
http://blog.csdn.net/u012432611/article/details/51151167转载 2016-08-27 07:42:54 · 462 阅读 · 0 评论 -
零售户logistics回归分类
http://blog.csdn.net/u012432611/article/details/51152000转载 2016-08-27 07:43:38 · 348 阅读 · 0 评论 -
烟草零售聚类1、KM_classic
http://blog.csdn.net/u012432611/article/details/51191122转载 2016-08-27 07:44:42 · 750 阅读 · 0 评论