spark
雄鸡
这个作者很懒,什么都没留下…
展开
-
spark RDD的基本命令
因为传统的并行计算模型无法有效的解决迭代计算(iterative)和交互式计算(interactive); 而Spark的使命便是解决这两个问题,这也是他存在的价值和理由Actions 命令:reduce(func) 通过函数func聚集数据集中的所有元素。Func函数接受2个参数,返回一个值。这个函数必须是关联性的,确保可以被正确的并发执行 collect() 在Driver的程序中原创 2015-06-18 22:16:31 · 2180 阅读 · 0 评论 -
spark之hadoop2.6环境搭建笔记
一、spark、hadoop、yarn 关系spark –> hadoop –> yarn hdfs yarn mapreduce(计算框架, spark)yarn: 主进程:resourcemanager yarn的开: sbin/start-yarn.sh yarn的关闭:sbin/stop-yarn.sh 登录的url:http://localhost:8088hdfs: n原创 2015-06-09 20:24:23 · 1725 阅读 · 0 评论 -
第61讲 scala 中隐式转换执行过程分析
一、隐式转换概念java 有很庞大的类库资源,但是 被声明成 final 的类不允许继承 例如 String , 怎样扩展java及第三方类库 scala提供了很灵活的方式当 scala 使用 implicit 隐式转化时 , scala 编辑器发现对象的类型不匹配时,不会直接报错,而会在代码中尝试匹配implicit声明的object, 当然,相同方法签名的类必须唯一。 举个小例子,实现在字符原创 2015-07-21 00:59:37 · 1003 阅读 · 0 评论 -
Scala中Abstract Types 成员
一、Abstract Types 概念所谓Abstract Types 成员, 是指trait ,class , Abstract class 使用 type 关键字 来定义类型,让实现类来指定具体的类型, 如:trait Reader{ type In <:java.io.Serializable //这里使用type定义的In类型,但并没有指明In是什么类型 type Con原创 2015-07-20 23:50:08 · 669 阅读 · 0 评论 -
spark RDD解密学习笔记
本期内容:1.RDD:基于工作集的应用抽象2.RDD内幕解密3.RDD思考 精通了RDD,学习Spark的时间大大缩短。解决问题能力大大提高,彻底把精力聚集在RDD的理解上,SparkStreaming、SparkSQL、SparkML底层封装的都是RDD。RDD是spark的基石,1) RDD提供了通用的 抽象2) 现在Spark有5个子框架SparkStr原创 2016-10-06 22:17:15 · 2060 阅读 · 0 评论 -
Spark Core Runtime分析: DAGScheduler, TaskScheduler, SchedulerBackend
Spark Runtime里的主要层次分析,梳理Runtime组件和执行流程,DAGSchedulerJob=多个stage,Stage=多个同种task, Task分为ShuffleMapTask和ResultTask,Dependency分为ShuffleDependency和NarrowDependency面向stage的切分,切分依据为宽依赖维护waiting jobs转载 2016-10-08 00:26:38 · 465 阅读 · 0 评论 -
spark Hash Shuffle内幕彻底解密
本博文的主要内容: 1、Hash Shuffle彻底解密 2、Shuffle Pluggable解密 3、Sorted Shuffle解密 4、Shuffle性能优化 一:到底什么是Shuffle? Shuffle中文翻译为“洗牌”,需要Shuffle的关键性原因是某种具有共同特征的数据需要最终汇聚到一个计算节点上进行计算。 二:Shuffle可转载 2016-11-13 17:02:37 · 1861 阅读 · 0 评论 -
Master HA彻底解密
本期内容: 1、MasterHA解析 2、Master HA的四种方式 3、Master HA的内部工作机制 4、Master HA的源码解析实际提交程序的时候,提交给作为Leader的Master;程序在运行前是粗粒度的资源分配模式,一般一个Master挂掉后,并不影响集群的运行。一、Master HA解析 1、生产环境下一般采用Zoo原创 2016-11-21 07:31:50 · 548 阅读 · 0 评论 -
Spark的几个基本概念:Driver和Job,Stage
Driver Program, Job和Stage是Spark中的几个基本概念。Spark官方文档中对于这几个概念的解释比较简单,对于初学者很难正确理解他们的涵义。官方解释如下(http://spark.apache.org/docs/latest/cluster-overview.html):Driver Program: The process running the main()转载 2016-12-18 17:10:38 · 3324 阅读 · 0 评论