![](https://img-blog.csdnimg.cn/20201014180756928.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
Spark
文章平均质量分 73
feige1990
这个作者很懒,什么都没留下…
展开
-
Spark Web的一些小知识
安装Spark后进的第一个网址,看你是否安装成功,查看sprak中worker的状态http://sparkmaster:8080/查看spark-shell状态http://sparkmaster:4040/stages/查看dfs(datanode)的状态http://sparkmaster:50070查看nodes的状态原创 2015-08-07 18:50:10 · 679 阅读 · 0 评论 -
Spark问题笔记5
对于文本文件,在Spark中,一行就是一条记录,若干条记录组成一个集合。我们 原来的算法直接在每一行上进行计算,就不行了。需要先构建数据集,然后通过数据集的操作, 实现我们的目的。将数据载入并构造数据集在Spark中,这个数据集被称为`RDD` :弹性分布数据集。对数据集进行map操作将原始记录映射为新的记录,并返回一个新的RDD。 对map后的数据集进行collect原创 2015-10-05 22:03:21 · 448 阅读 · 0 评论 -
GraphX的基本介绍
1、GraphX的需要懂的三个问题:(1)提供给用户的API,各家提供的差不多(2)图在分布式系统中如何存储?每个机器存哪个边?哪个点?(3)分布式图是如何通信的呢?(边点确定时)2、GraphX图引擎基于Spark,其存的点和边叫分别较做EdgeRDD和VertexRDD,相比于RDD,附加了元信息。分布式的存储方式会影响后期的执行效率;边和点的存原创 2015-09-04 23:40:56 · 3771 阅读 · 0 评论 -
Spark Shuffle 的调研
转正自:http://dongxicheng.org/framework-on-yarn/apache-spark-shuffle-details/概述:对于大数据计算框架而言,Shuffle是分布式系统性能的瓶颈之一,Shuffle阶段的设计优劣是决定性能好坏的关键因素之一。本文将介绍目前Spark的shuffle实现,并将之与MapReduce进行简单对比。本文的介绍顺序是:(1)原创 2015-09-02 14:43:03 · 411 阅读 · 0 评论 -
Spark学习链接
Spark学习过程中肯定能用到的网站!原创 2015-09-03 19:05:01 · 362 阅读 · 0 评论 -
Spark问题笔记4
对RDD的操作,体现在对算子的操作算子分两类:Transformation、Action运行调度:->DAG->Stage->TaskDAGSchedule遇到Action时会回溯,当遇到shuffle时会产生新的Stage,从而产生Stage;使用TaskSchedule对Stage1进行调度,把stage1 task任务委派到Worker上。原创 2015-09-02 14:17:50 · 418 阅读 · 0 评论 -
spark源码剖析之----Shuffle
1.源码结构上图是Shuffle的源码组成。2.ShuffleRDD的类可见其继承了RDD类,其中主要是重写了RDD的getDependencies、partitioner、getPartitions、compute和clearDependencies方法。其中compute方法如下:先Look下Spark Shuffle的整体流程哈,这是在老版本的Spar原创 2015-09-04 02:09:52 · 561 阅读 · 0 评论 -
spark源码剖析之----Partitioner
每个RDD里面都有一个可选的分区策略方法,在Spark源码中关于Partitioner提供了Partitioner的抽象类,/** * An object that defines how the elements in a key-value pair RDD are partitioned by key. * Maps each key to a partition ID, from原创 2015-09-03 16:57:42 · 501 阅读 · 1 评论 -
Spark编程使用的基本指令
// * hadoop fs -mkdir input // * hadoop fs -copyFromLocal /user/local/hadoop/*.txt input // * hadoop jar *.jar className input output // * hadoop namenode -format // * // * spark // * hadoop原创 2015-09-03 00:01:22 · 893 阅读 · 0 评论 -
RDD.scala源码
* A Resilient Distributed Dataset (RDD), the basic abstraction in Spark. Represents animmutable, *partitioned collection of elements that can be operated on inparallel. * RDD.scala:This c原创 2015-09-01 12:05:15 · 521 阅读 · 0 评论 -
讨论Spark的配置监控和性能优化
讨论Spark的配置监控和性能优化(某课程笔记) 上完这节课以后,你将能够描述集群的概念通过修改Spark的属性,环境变量,或者是日志属性来配置Spark使用Web端界面,以及各种不同的外部工具来监控Spark和应用程序 在Spark集群中有三种主要的组成部分。驱动程序,是放置主程序中SparkContext的地方,要运行一个集群,你需要一个集群管理器它可以是单机原创 2015-08-01 17:06:40 · 822 阅读 · 0 评论 -
Spark问题笔记3
1、RDD的缓存策略是什么? 缓存策略对应类StorageLevel,包括多种存储级别:objectStorageLevel{ val NONE =newStorageLevel(false,false,false,false) val DISK_ONLY =newStorageLevel(true,fa原创 2015-08-26 22:24:14 · 640 阅读 · 0 评论 -
Spark问题笔记2
1、学习Spark必须要深入理解RDD编程模型。为什么呢? RDD是Spark抽象的基石,整个Spark的编程都是基于对RDD的操作完成的。RDD(弹性分布式数据集,Resilient Distributed Datasets),其特性是只读的、可分区、容错的的数据集合;所谓弹性,指内存不够时,可以与磁盘进行交换(Spark是基于内存的),上述是Spark快的一个原因。Spark快的另原创 2015-08-26 16:36:03 · 681 阅读 · 0 评论 -
Spark问题笔记1
Spark问题笔记1我们知道Spark总是以集群的方式运行的,Standalone的部署方式是集群方式中最为精简的一种(另外的是Mesos和Yarn)。Standalone模式中,资源调度是自己实现的,是MS架构的集群模式,故存在单点故障问题。下面提出几个问题并解决:1、Standalone部署方式下包含哪些节点? 由不同级别的三个节点组成,分别是Master主控节点、Wor原创 2015-08-26 14:12:42 · 695 阅读 · 1 评论 -
Spark安装
经过了小一天的时间终于把Spark安装好了我的机器配置是windows7,8G,内存,双核的安装的软件列表为:Ubuntu 14.04.1 LTS (GNU/Linux 3.13.0-32-generic x86_64)vmwareHadoop: 2.6.0Spark: 1.4.0jdk-7u75-linux-x64.gzscala-2.10.4(注意版原创 2015-08-07 16:29:37 · 594 阅读 · 1 评论 -
Spark Streaming 的 UpdateStateByKey操作
updateStateByKey利用给定的函数更新DStream的状态,返回一个新"state"的DStream。操作允许不断用新信息更新它的同时保持任意状态。你需要通过两步来使用它定义状态 状态可以是任何的数据类型定义状态更新函数 怎样利用更新前的状态和从输入流里面获取的新值更新状态举个例子说明。若想保持一个文本数据流中每个单词的运行次数,运行次数用一个state表原创 2015-09-21 22:11:25 · 1507 阅读 · 0 评论