Spark
Eric-L90
New year,New life
展开
-
Remo TteException:Server IPC version 9 cannot communicate with client version 4
最近在搭建Tachyon0.7.1的时候指定的TACHYON_UNDERFS_ADDRESS是hdfs的路径。结果遇到了标题错误。看了一下,发现原来官方提供的编译好的包是基于hadoop1.x版本编译的。这是一个很老的版本。如果是其他的hadoop版本需要重新进行编译。源码可以从https://github.com/amplab/tachyon/releases下载。当然,这里也有其他编译原创 2015-09-25 11:01:09 · 808 阅读 · 0 评论 -
scala eclipse导入spark-assembly-1.6.0-hadoop2.6.0.jar工程出现红色叉
今天在用eclipse编写spark代码的时候发现只要是导入了spark-assembly-1.6.0-hadoop2.6.0.jar就报错,不能编译运行了。也没查到资料,突然想起来Spark1.6.0官网上的包好像是基于scala2.10编译好的。如果scala2.11需要自己编译。我下载的是编译好的。然后工程上右键->Properties->scala Compiler-然后调成2.10,然后原创 2016-04-20 11:18:17 · 10184 阅读 · 2 评论 -
Spark Streaming源码解读之State管理之UpdataStateByKey和MapWithState解密
转自:http://www.cnblogs.com/yinpin2011/p/5539708.html本期内容 :UpdateStateByKey解密MapWithState解密 Spark Streaming是实现State状态管理因素: 01、 Spark Streaming是按照整个BachDuration划分Job的,每个BachDura转载 2016-08-18 15:57:40 · 725 阅读 · 0 评论 -
Spark Streaming 'numRecords must not be negative'问题解决
转载自:http://blog.csdn.net/xueba207/article/details/51135423问题描述笔者使用Spark streaming读取Kakfa中的数据,做进一步处理,用到了KafkaUtil的createDirectStream()方法;该方法不会自动保存topic partition的offset到zk,需要在代码中编写提交逻辑,此处转载 2016-09-09 15:20:11 · 2452 阅读 · 0 评论 -
Spark2.0的Caused by: java.net.URISyntaxException: Relative path in absolute URI: file错误
在使用spark2.0的时候遇到如下错误:16/09/21 14:12:22 INFO SharedState: Warehouse path is 'file:E:\scalacode_v2\Spark2Pro/spark-warehouse'.Exception in thread "main" java.lang.IllegalArgumentException: java.net.原创 2016-09-21 14:17:18 · 4056 阅读 · 0 评论 -
spark中的sortBy和sortByKey
spark中对RDD的数据进行排序有两种方法:一种就是sortByKey,也就是我们熟知的根据key值进行排序。另外一种时sortBy,这个就是根据我们的需要自己写根据那个值排序。比如我们对wordcount的结果进行排序,除了将(key,value)倒过来根据key排序外,我们可以直接用sortBy.用法如下:第一个参数是一个函数,该函数的也有一个带T泛型的参数,返回类型和RDD原创 2017-04-06 12:01:59 · 1882 阅读 · 0 评论