![](https://img-blog.csdnimg.cn/20201014180756919.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
spark
程序小蚂蚁
这个作者很懒,什么都没留下…
展开
-
spark RDD常用算子(一)
- filter 算法解释 filter 函数功能是对元素进行过滤,对每个 元 素 应 用 f 函 数, 返 回 值 为 true 的 元 素 在RDD 中保留,返回值为 false 的元素将被过滤掉。 内 部 实 现 相 当 于 生 成 FilteredRDD(this,sc.clean(f))。 源文件 过滤文件中的INFO日志 scala代码var rdd = sc.textFile...原创 2018-10-31 10:30:41 · 349 阅读 · 0 评论 -
spark RDD常用算子(二)
- reduceByKey 算法解释 reduceByKey 是比 combineByKey 更简单的一种情况,只是两个值合并成一个值,( Int, Int V)to (Int, Int C),比如叠加。所以 createCombiner reduceBykey 很简单,就是直接返回 v,而 mergeValue和 mergeCombiners 逻辑是相同的,没有区别。 源文件val rdd...原创 2018-10-31 15:28:49 · 217 阅读 · 0 评论 -
spark RDD算子 parallelize,makeRDD,textFile
1. parallelize **调用SparkContext 的 parallelize(),将一个存在的集合,变成一个RDD,这种方式试用于学习spark和做一些spark的测试 ** scala版: 第一个参数一是一个 Seq集合 第二个参数分区数 var array = List(1, 2, 3, 4, 5, 6, 7, 8) var rdd = sc.paralleliz...原创 2018-10-30 11:21:51 · 844 阅读 · 0 评论 -
spark RDD常用算子(三)
- first、take、collect、count、top、takeOrdered、foreach、fold、reduce、countByValue、lookup 算法解释 first:返回第一个元素 take:rdd.take(n)返回第n个元素 collect:rdd.collect() 返回 RDD 中的所有元素 count:rdd.count() 返回 RDD 中的元素个数 ...原创 2018-11-01 11:17:09 · 425 阅读 · 0 评论 -
windows系统上运行spark、hadoop报错Could not locate executable null\bin\winutils.exe in the Hadoop binaries
1.下载 winutils.exe:http://download.csdn.net/download/ypsong2011/9109143或者https://github.com/srccodes/hadoop-common-2.2.0-bin 2.将此文件放置在某个目录下,比如C:\winutils\bin\中。 3.在程序的一开始声明:System.setProperty(“hadoop....原创 2018-10-26 10:58:14 · 609 阅读 · 0 评论