hadoop&spark
文章平均质量分 66
d4shman
~
展开
-
intellij的maven工程"Server IPC version 9 cannot communicate with client version"错误的解决办法
这个问题是java初始化hdfs client时出现的,原因是maven依赖的版本和hdfs的版本不一致。mvn的hadoop-core最高只有1.2.1版本, 不能加这个配置, 使用hadoop-common + hadoop-hdfs + hadoop-client的2.7.1版本即可我的配置: com._baidu原创 2016-06-07 21:43:49 · 3425 阅读 · 2 评论 -
Spark源码--Stage
Stage是Spark调度执行的物理单元Spark1.6版本Stage源码:package org.apache.spark.schedulerimport scala.collection.mutable.HashSetimport org.apache.spark._import org.apache.spark.rdd.RDDimport org.apache.spark.util.Cal原创 2017-07-18 12:20:27 · 628 阅读 · 0 评论 -
Spark源码--EventLoop
Spark1.6版本 EventLoop.scala源码如下:package org.apache.spark.utilimport java.util.concurrent.atomic.AtomicBooleanimport java.util.concurrent.{BlockingQueue, LinkedBlockingDeque}import scala.util.control.原创 2017-07-18 10:26:03 · 764 阅读 · 0 评论 -
Hadoop作业压缩方式对比(CPU和memory的权衡)
slide地址:Compression Options in Hadoop - A Tale of Tradeoffs转载 2017-05-10 17:07:34 · 667 阅读 · 0 评论 -
Spark mapPartitions()操作
原文地址:http://apachesparkbook.blogspot.com/2015/11/mappartition-example.html---mapPartitions() can be used as an alternative to map() & foreach(). mapPartitions() is called once for each Partition转载 2016-11-21 12:11:47 · 2686 阅读 · 0 评论 -
Spark RDD基本操作
Spark RDD Scala语言编程RDD(Resilient Distributed Dataset)是一个不可变的分布式对象集合, 每个rdd被分为多个分区, 这些分区运行在集群的不同节点上。rdd支持两种类型的操作:转化(trainsformation)和行动(action), Spark只会惰性计算rdd, 也就是说, 转化操作的rdd不会立即计算, 而是在其第一次遇到行动操作时才去计算,原创 2016-11-13 20:32:19 · 5036 阅读 · 0 评论 -
Spark数据分区
Spark程序可以通过分区来减少网络通信开销。分区并非对于所有场景都是有好处的:比如, 如果给定RDD只被扫描一遍,那么完全没有必要做分区, 只有当数据多次在诸如连接这种基于键的操作时,分区才会有帮助。 假设我们有一份不变的大文件userData, 以及每5分钟产生的小数据events, 现要求在每5分钟产出events数据后, userData对events做一次join操作。 该过程的代码原创 2016-11-20 00:55:02 · 2453 阅读 · 1 评论 -
Spark Pair RDD操作
Spark Pair RDD操作1. 创建Pair RDDval pairs = lines.map(x => (x.split(" ")(0), x)2. Pair RDD的转化方法表1 Pair RDD的转化方法(以键值对集合{(1,2), (3,4), (3, 6)}为例) 函数名 目的 示例 结果 reduceByKey() 合并具有相同键的值 rdd.reduce原创 2016-11-19 12:14:04 · 1265 阅读 · 0 评论 -
Spark内存参数调节
原文地址: http://blog.cloudera.com/blog/2015/03/how-to-tune-your-apache-spark-jobs-part-2/--In the conclusion to this series, learn how resource tuning, parallelism, and data representation affect转载 2016-11-15 10:29:55 · 1990 阅读 · 2 评论 -
Spark源码--JobListener
Spark-1.6版本JobListener trait:用于监听Job运行结束(成功/失败)事件,声明了taskSucceeded和jobFailed方法package org.apache.spark.scheduler/** * Interface used to listen for job completion or failure events after submitting a j原创 2017-07-18 14:56:28 · 774 阅读 · 0 评论