Spark
文章平均质量分 57
ywendeng
在这我将记录我软件开发的经验和常见问题-万丈高楼平地起,勿在浮沙筑高台。
展开
-
Spark 优化总结(一)
一、简介 对于spark的优化并不只是从程序入手,而是Spark 优化主要集中在内存、网络IO、和磁盘IO三个方面。即就是driver、executor 的内存和shuffle 的设置,文件系统的配置,集群的搭建,集群和文件系统的搭建。通过对spark的优化,解决了资源的限定、以及性能的提升。 二、常见的优化方法 1、repartition(重分区) and coalesce(合并)原创 2016-08-01 20:33:08 · 637 阅读 · 0 评论 -
Spark 中Transformation 、Action操作 以及RDD的持久化
1、常用的Transformation操作有 map、filter、flatMap、groupByKey、reduceByKey、sortByKey、join、cogroup 2、常用的Action操作有 reduce、collect、count、take、saveAsTextFile、countByKey、foreach 3、RDD的持久化原理 Spark非常重要的一个功能特性就是原创 2016-09-13 21:16:31 · 1373 阅读 · 0 评论 -
Spark 中的二次排序Java实现
需求描述:对文本中数据记录进行排序,如果第一行数据记录相同,则根据第二行数据进行排序编程思想描述:首先,将需要将待排序的字段封装成一个类,该实现了Ordered和Serializable 接口,实现接口中的方法。同时为待排序的属性字段提供getter 、setter 、hashcode 以及 equals 方法。在application 应用程序中 将key 封装为之前我们定义好的对象,之后调用so原创 2016-09-16 16:54:15 · 1229 阅读 · 0 评论 -
Spark 工作原理及核心RDD 详解
一、Spark 是什么 Spark是UC Berkeley AMP lab所开源的类Hadoop MapReduce的通用分布式并行计算框架。Spark拥有Hadoop MapReduce所具有的优点,但和MapReduce 的最大不同之处在于Spark是基于内存的迭代式计算——Spark的Job处理的中间输出结果可以保存在内存中,从而不再需要读写HDFS,除此之外,一个MapReduce 在计翻译 2016-08-23 20:43:21 · 10665 阅读 · 2 评论