spark
文章平均质量分 85
**码上人生**
在数据、代码中寻找诗和远方......
展开
-
spark原理及工作流程
1.1spark简介1、Spark 是什么Spark 是基于内存计算的大数据并行计算框架。Spark基于内存计算,提高了在大数据环境下数据处理的实时性,同时保证了高容错性和高可伸缩性,允许用户将Spark部署在大量廉价硬件之上,形成集群。AMPLab 开发以Spark 为核心的BDAS 时提出的目标是:one stackto rule them all,也就是说在一套软件栈内完成各种大原创 2016-02-07 11:09:26 · 9284 阅读 · 0 评论 -
spark tranformation及action总结
Spark创建RDD分为三种:从集合中创建RDD;从外部存储创建RDD;从其他RDD创建。RDD是Spark中的抽象数据结构类型,任何数据在Spark中都被表示为RDD。从编程的角度来看,RDD可以简单看成是一个数组。和普通数组的区别是,RDD中的数据是分区存储的,这样不同分区的数据就可以分布在不同的机器上,同时可以被并行处理。因此,Spark应用程序所做的无非是把需要处理的数据转换为RDD,原创 2016-02-07 11:13:40 · 1528 阅读 · 0 评论 -
spark计算模型
spark计算模型与Hadoop 不同,Spark 一开始就瞄准性能,将数据(包括部分中间数据)放在内存,在内存中计算。用户将重复利用的数据缓存到内存,提高下次的计算效率,因此Spark 尤其适合迭代型和交互型任务。Spark 需要大量的内存,但性能可随着机器数目呈多线性增长。本章将介绍Spark 的计算模型。3.1 Spark 程序模型下面通过一个经典的示例程序来初步了解Spark原创 2016-02-07 11:15:34 · 4569 阅读 · 0 评论 -
Spark 启动方式
1、spark提交任务方式1)、spark on yarn:$ ./bin/spark-submit--class org.apache.spark.examples.SparkPi \ --master yarn-cluster \ --num-executors 3 \ --driver-memory 4g \ --executor-原创 2016-02-19 15:14:43 · 6882 阅读 · 0 评论 -
spark例子
1、Wordcount程序测试:进入spark-shell中val text_file =sc.textFile("hdfs://hadoop1:8020/ai/README.txt")val counts =text_file.flatMap(line=>line.split("")).map(word=>(word,1)).reduceByKey(_+_)counts.saveAs原创 2016-02-19 15:18:16 · 1169 阅读 · 0 评论 -
spark常用函数:transformation和action
1、RDD提供了两种类型的操作:transformation和action所有的transformation都是采用的懒策略,如果只是将transformation提交是不会执行计算的,计算只有在action被提交的时候才被触发。1)transformation操作:得到一个新的RDD,比如从数据源生成一个新的RDD,从RDD生成一个新的RDDmap(func):对调用map的RDD数原创 2016-02-19 15:20:06 · 14027 阅读 · 0 评论