Spark
文章平均质量分 94
GeekStuff
I will be posting instruction guides, how-tos, troubleshooting tips.
展开
-
Mesos:数据中心细粒度的资源共享平台
背景Hadoop集群只能运行一种单一的MapReduce应用程序,这使得它很难运行不符合map-reduce模型的应用程序。如果要想在Hadoop集群上安装Spark应用程序,那么必须为Spark安装一套全新的worker和master。从利用率的角度来看这种方式非常不理想,因为他们通常是静态分区的。因而数据中心需要单个集群上运行多个框架,保证资源的最大利用和框架之间的数据共享。Mesos是一个通用原创 2016-02-11 16:01:05 · 2040 阅读 · 0 评论 -
Spark RDD
数据抽象RDD定义:RDD是只读的、分区记录集合。 特点:支持工作集、自动容错、位置感知、可伸缩; 5个属性: 1. 一组分片(Partition):每个分片逻辑上被映射成Block,会被一个计算任务处理。RDD默认分片个数为程序分配到的CPU核数; 2. 一个分片计算函数:每个RDD都会实现compute函数; 3. 依赖关系:RDD之间转换形成前后依赖关系,当部分分区数据丢失时,原创 2016-04-24 13:30:41 · 1044 阅读 · 0 评论 -
Spark MLlib之分类模型源码分析
逻辑回归回顾Logistic regression是机器学习常用的分类模型,用于将不同样本分开。本文的重点不在Logistic regression的细节,关于Logistic regression的具体原理和公式推导请参考zuoxy09的博文—— 机器学习算法与Python实践之(七)逻辑回归(Logistic Regression)。 接下来给出Logistic regression的cost原创 2016-07-23 21:52:39 · 2025 阅读 · 0 评论 -
Spark Shuffle机制
无论是MapReduce还是Spark,Shuffle无疑是性能调优的重点。Spark的Shuffle和MapReduce的Shuffle思想相同,在实现细节和优化方式上不同。本文重点介绍Spark的Shuffle机制。Shuffle Overview为什么要Shuffle数据分布在不同的存储结点和计算单元上,为了将某种共同特征的数据聚集在一个结点上计算,这个过程就涉及到数据的shuffle。Shu原创 2016-04-20 08:53:09 · 1133 阅读 · 0 评论 -
Spark执行原理概述
Spark优点 速度快 基于内存的计算比MapReduce快100倍以上; 简单易用 支持多种语言API,快速构建不同应用; 通用 提供统一的解决方案:SQL、Streaming、MLib、GraphX; 可融合 资源管理和调度:YARN、Mesos; 数据存储:HDFS、HBase; 整体架构 整体上架构有三部分组成Master、Work和Client,它们之间通过akka通信原创 2016-11-12 20:32:11 · 1194 阅读 · 0 评论