spark
文章平均质量分 51
studyforir
这个作者很懒,什么都没留下…
展开
-
java.net.NoRouteToHostException: No route to host
另外两个从结点也没有问题,此处略去。经过对比验证,都没有问题。其实,我已经想到可能是防火墙的问题,经过查证,终于找到了有人曾经遇到过该问题,可见文章http://samwalt.iteye.com/blog/1099348,需要关闭防火墙,在集群中每台机器上都执行如下命令:[plain] view plain copy转载 2016-05-02 20:23:53 · 1593 阅读 · 0 评论 -
在spark中操作mysql数据 ---- spark学习之七
在spark中操作mysql数据 ---- spark学习之七使用spark的 DataFrame 来操作mysql数据。DataFrame是比RDD更高一个级别的抽象,可以应用SQL语句进行操作,详细参考:https://spark.apache.org/docs/latest/sql-programming-guide.html 这里暂时使用spark-shell进行操转载 2016-05-27 10:34:53 · 325 阅读 · 0 评论 -
spark实现Map-side Join和Reduce-side Join
在大数据处理场景中,多表Join是非常常见的一类运算。为了便于求解,通常会将多表join问题转为多个两表连接问题。两表Join的实现算法非常多,一般我们会根据两表的数据特点选取不同的join算法,其中,最常用的两个算法是map-side join和reduce-side join。本文将介绍如何在apache spark中实现这两种算法。(1)Map-side Join转载 2016-05-27 15:34:40 · 752 阅读 · 0 评论 -
spark job运行参数优化
spark job运行参数优化一、问题 使用spark join两张表(5000w*500w)总是出错,报的异常显示是在shuffle阶段。14/11/27 12:05:49 ERROR storage.DiskBlockObjectWriter: Uncaught exception while reverting partial writes to file转载 2016-05-27 15:39:55 · 783 阅读 · 1 评论 -
浅谈对于RDD的认识 RDD(Resilient Distributed Datasets)弹性分布式数据集,是在集群应用中分享数据的一种高效,通用,容错的抽象,是Spark提供的最重要的抽象的概念
浅谈对于RDD的认识RDD(Resilient Distributed Datasets)弹性分布式数据集,是在集群应用中分享数据的一种高效,通用,容错的抽象,是Spark提供的最重要的抽象的概念,它是一种有容错机制的特殊集合,可以分布在集群的节点上,以函数式编操作集合的方式,进行各种并行操作。RDD是只读的,不可变的数据集。RDD也是容错的,假如其中一个RDD坏掉,RDD中有记录转载 2016-05-15 22:25:03 · 899 阅读 · 0 评论 -
小括号与花括号小括号与花括号
scala雾中风景(2): 小括号与花括号2条回复下面的问题,表面上看是小括号与花括号的问题。// map方法这样写不能编译通过scala> List(2).map( case 2 => "OK" )// 换做花括号就可以了scala> List(2).map{ case 2 => "OK" }不了解原因的话,觉得很诡异。分析一下,首先,map方法接受一个转载 2016-05-05 17:22:29 · 1582 阅读 · 0 评论