Spark
文章平均质量分 50
代码与思路齐飞
这个作者很懒,什么都没留下…
展开
-
聊聊spark这个大数据计算框架
Spark是基于内存计算的大数据并行计算框架。Spark基于内存计算,提高了其在大数据环境下数据处理的实时性,同时保证了高容错性和高可伸缩性。Spark项目包含多个紧密集成的组件。Spark的核心是一个对由很多计算任务组成的、运行在多个工作机器或者是一个计算集群上的应用进行调度、分发以及监控的计算引擎。由于Spark的核心引擎有着速度快和通用的特点,因此 Spark 还支持为各种不同应原创 2017-04-10 21:28:41 · 5636 阅读 · 0 评论 -
惰性求值的简单介绍
惰性求值意味着当我们对RDD调用转化操作(例如调用filter() )时,操作不会立即执行。Spark会在内部记录下所要执行的操作的相关信息。所以我们这时不应该把RDD看作存放着特定数据的数据集,而要把每个RDD当作我们通过转化操作构建出来的、记录如何计算数据的指令列表。把数据读取到RDD的操作也同样是惰性的。因此,当我们调用sc.textFile(...) 时,数据并没有被读取到内存中,而是要在原创 2017-04-12 22:14:21 · 1871 阅读 · 0 评论 -
spark的数据存储
Spark数据存储的核心是弹性分布式数据集(RDD)。RDD可以被抽象地理解为一个大的数组,这个数组中的每个元素是RDD逻辑上的一个分区(partition),每个分区分布在集群上的不同节点上。在spark的执行过程中,RDD经过transformation算子之后,最后由action算子触发操作。逻辑上每经历一次转换,就会将RDD转换为一个新的RDD,新的RDD和旧的RDD之原创 2017-04-12 22:13:35 · 2781 阅读 · 0 评论 -
RDD的两种操作算子
RDD支持两种类型的操作算子:Transformation(转换)与Action(行动)。1、Transformation(变换)Transformation操作会由一个RDD生成一个新的 RDD。Transformation操作是延迟计算的,也就是说从一个RDD转换生成另一个RDD的转换操作不是马上执行,需要等到Actions操作时,才真正开始运算。原创 2017-04-12 22:12:40 · 6572 阅读 · 0 评论 -
RDD的简介
在spark中,有一个不可变的分布式数据结构,即弹性分布式数据集(RDD),它是逻辑集中的实体,在集群中的多个节点上被分为多个分区。通过对多个节点上不同RDD分区的控制,能够减少机器之间的数据重排(data shuffling)。Spark提供了一个”partitionBy”运算符,能够通过集群中多个节点之间对原始RDD进行数据再分配来创建一个新的RDD。R原创 2017-04-12 22:10:48 · 409 阅读 · 0 评论 -
spark中会遇到的一些名词
RDD Resillient distributed dataset 弹性分布式数据集Application Spark的用户程序Driver Program 运行main函数并且新建SparkContext的程序Cluster Manager Spark集群资源调度服务(standalone,mesos,yarn)Worker Node Spark集群中的运行应用原创 2017-04-12 22:09:02 · 246 阅读 · 0 评论 -
spark的集群管理器
上篇文章谈到Driver节点和Executor节点,但是如果想要运行Driver节点和Executor节点,就不能不说spark的集群管理器。spark的集群管理器大致有三种,一种是自带的standalone独立集群管理器,一种是依赖于Hadoop的资源调度器YARN,还有一种就是Apache项目的Mesos集群管理器。Spark 依赖于集群管理器来启动Executor节点,有时候也会依赖原创 2017-04-12 22:07:05 · 1721 阅读 · 0 评论 -
spark的Driver节点和Executor节点
1.驱动器节点(Driver)Spark的驱动器是执行开发程序中的 main方法的进程。它负责开发人员编写的用来创建SparkContext、创建 RDD,以及进行 RDD 的转化操作和行动操作代码的执行。如果你是用spark shell,那么当你启动 Spark shell的时候,系统后台自启了一个 Spark 驱动器程序,就是在Spark shell 中预加载的一个叫作 sc 的 Sp原创 2017-04-12 22:05:59 · 6229 阅读 · 2 评论 -
Spark刚学习时遇到的一个小问题
在之前学习spark时遇到的一个问题,这个问题比较简单,是刚开始学习时遇到的,属于最简单的问题。org.apache.spark.SparkException: A master URL must be set in your configurationat org.apache.spark.SparkContext.(SparkContext.scala:401)at org.a原创 2017-03-27 10:51:13 · 584 阅读 · 0 评论 -
spark的架构
在分布式环境下,Spark 集群采用的是master/slave结构。Master是对应集群中的含有master进程的节点,slave是集群中含有worker进程的节点。Master作为整个集群的控制器,负责整个集群的正常运行;worker相当于是计算节点,接收主节点命令与进行状态汇报,client作为用户的客户端负责提交应用。在一个 Spark集群中,有一个节点负责中央协调,调度各个分布原创 2017-04-11 19:51:36 · 413 阅读 · 0 评论 -
spark的生态圈
Spark系统中,其核心框架是spark core,同时涵盖支持结构化数据SQL查询与分析的查询引擎Spark SQL和shark,提供机器学习功能的系统MLbase及底层的分布式机器学习库MLlib,并行图计算框架GraphX、流计算框架SparkStreaming。采样近似计算查询引擎BlinkDB、内存分布式文件系统Tachyon、资源管理框架等子项目。如下图所示:下面对原创 2017-04-11 19:49:08 · 934 阅读 · 0 评论 -
spark与Hadoop的比较
1、spark与Hadoop的联系1)spark继承HadoopSpark 紧密集成 Hadoop 生态系统里的许多工具。它能读写 MapReduce 支持的所有数据格式,可以与 Hadoop 上的常用数据格式,如 Avro 和 Parquet(当然也包括古老的 CSV),进行交互。它能读写 NoSQL 数据库,比如HBase和Cassandra。它的流式处理组件 Spark St原创 2017-04-11 14:04:10 · 2811 阅读 · 0 评论 -
集群运行spark时出现的问题
在运行spark时遇到一个问题,spark程序在集群上运行了一段时间后,突然挂掉了,查看日志发现了下面的错误信息,如下图所示:spark程序是提交到yarn上运行的,而在yarn中,container是程序最终运行的容器,从上面的日志上我们可以看到是在container启动时出现了异常,也就是说container容器没有能够正常启动,直接退出了。后来查看提交程序时的命令,如下:原创 2017-04-19 22:38:01 · 1072 阅读 · 0 评论