2016年09月_wisgood

12月 11月 10月 09月 08月 07月 06月 05月 04月 03月

转载 spark算子系列文章

Spark算子系列文章Spark算子：RDD创建操作Spark算子：RDD基本转换操作(1)–map、flagMap、distinctSpark算子：RDD基本转换操作(2)–coalesce、repartitionSpark算子：RDD基本转换操作(3)–randomSplit、glomSpark算子：RDD基本转换操作(4)–union、intersec

2016-09-27 21:51:41 3018

转载 Spark算子：RDD键值转换操作(1)–partitionBy、mapValues、flatMapValues

关键字：Spark算子、Spark RDD键值转换、partitionBy、mapValues、flatMapValuespartitionBydef partitionBy(partitioner: Partitioner): RDD[(K, V)]该函数根据partitioner函数生成新的ShuffleRDD，将原RDD重新分区。scala> var rdd1 =

2016-09-26 14:03:48 2557

转载 Spark算子：RDD键值转换操作(2)–combineByKey、foldByKey

combineByKeydef combineByKey[C](createCombiner: (V) => C, mergeValue: (C, V) => C, mergeCombiners: (C, C) => C): RDD[(K, C)]def combineByKey[C](createCombiner: (V) => C, mergeValue: (C, V) =>

2016-09-26 14:03:11 656

转载 Spark算子：RDD键值转换操作(3)–groupByKey、reduceByKey、reduceByKeyLocally

关键字：Spark算子、Spark RDD键值转换、groupByKey、reduceByKey、reduceByKeyLocallygroupByKeydef groupByKey(): RDD[(K, Iterable[V])]def groupByKey(numPartitions: Int): RDD[(K, Iterable[V])]def groupBy

2016-09-26 14:02:25 1618

转载 Spark算子：RDD键值转换操作(4)–cogroup、join

关键字：Spark算子、Spark RDD键值转换、cogroup、joincogroup##参数为1个RDDdef cogroup[W](other: RDD[(K, W)]): RDD[(K, (Iterable[V], Iterable[W]))]def cogroup[W](other: RDD[(K, W)], numPartitions: Int): R

2016-09-26 14:01:54 1176

转载 Spark算子：RDD键值转换操作(5)–leftOuterJoin、rightOuterJoin、subtractByKey

关键字：Spark算子、Spark RDD键值转换、leftOuterJoin、rightOuterJoin、subtractByKeyleftOuterJoindef leftOuterJoin[W](other: RDD[(K, W)]): RDD[(K, (V, Option[W]))]def leftOuterJoin[W](other: RDD[(K, W)],

2016-09-26 14:01:32 1637

转载 Spark算子：RDD行动Action操作(1)–first、count、reduce、collect

关键字：Spark算子、Spark RDD行动Action、first、count、reduce、collectfirstdef first(): Tfirst返回RDD中的第一个元素，不排序。scala> var rdd1 = sc.makeRDD(Array(("A","1"),("B","2"),("C","3")),2)rdd1: org.apache.spar

2016-09-26 14:01:10 4192

转载 Spark算子：RDD行动Action操作(2)–take、top、takeOrdered

关键字：Spark算子、Spark RDD行动Action、take、top、takeOrderedtakedef take(num: Int): Array[T]take用于获取RDD中从0到num-1下标的元素，不排序。scala> var rdd1 = sc.makeRDD(Seq(10, 4, 2, 12, 3))rdd1: org.apache.spark.r

2016-09-26 14:00:50 1391

转载 Spark算子：RDD行动Action操作(3)–aggregate、fold、lookup

aggregatedef aggregate[U](zeroValue: U)(seqOp: (U, T) ⇒ U, combOp: (U, U) ⇒ U)(implicit arg0: ClassTag[U]): Uaggregate用户聚合RDD中的元素，先使用seqOp将RDD中每个分区中的T类型元素聚合成U类型，再使用combOp将之前每个分区聚合后的U类型聚合成U类型，特

2016-09-26 14:00:27 635

转载 Spark算子：RDD行动Action操作(4)–countByKey、foreach、foreachPartition、sortBy

关键字：Spark算子、Spark函数、Spark RDD行动Action、countByKey、foreach、foreachPartition、sortBycountByKeydef countByKey(): Map[K, Long]countByKey用于统计RDD[K,V]中每个K的数量。scala> var rdd1 = sc.makeRDD(Array((

2016-09-26 14:00:00 852

转载 Spark算子：RDD行动Action操作(5)–saveAsTextFile、saveAsSequenceFile、saveAsObjectFile

关键字：Spark算子、Spark函数、Spark RDD行动Action、Spark RDD存储操作、saveAsTextFile、saveAsSequenceFile、saveAsObjectFilesaveAsTextFiledef saveAsTextFile(path: String): Unitdef saveAsTextFile(path: String, c

2016-09-26 13:59:32 10225

转载 Spark算子：RDD行动Action操作(6)–saveAsHadoopFile、saveAsHadoopDataset

关键字：Spark算子、Spark函数、Spark RDD行动Action、Spark RDD存储操作、saveAsHadoopFile、saveAsHadoopDatasetsaveAsHadoopFiledef saveAsHadoopFile(path: String, keyClass: Class[_], valueClass: Class[_], outputForma

2016-09-26 13:59:09 4953 1

转载 Spark算子：RDD行动Action操作(7)–saveAsNewAPIHadoopFile、saveAsNewAPIHadoopDataset

关键字：Spark算子、Spark函数、Spark RDD行动Action、Spark RDD存储操作、saveAsNewAPIHadoopFile、saveAsNewAPIHadoopDatasetsaveAsNewAPIHadoopFiledef saveAsNewAPIHadoopFile[F def saveAsNewAPIHadoopFile(path: Stri

2016-09-26 13:58:45 5088 1

转载 Spark算子：RDD基本转换操作(1)–map、flatMap、distinct

关键字：Spark算子、Spark RDD基本转换、map、flatMap、distinctmap将一个RDD中的每个数据项，通过map中的函数映射变为一个新的元素。输入分区与输出分区一对一，即：有多少个输入分区，就有多少个输出分区。hadoop fs -cat /tmp/lxw1234/1.txthello worldhello sparkhello hive //读取HDFS文件到RDDsc...

2016-09-26 13:57:44 6781

转载 Spark算子：RDD创建操作

关键字：Spark RDD 创建、parallelize、makeRDD、textFile、hadoopFile、hadoopRDD、newAPIHadoopFile、newAPIHadoopRDD从集合创建RDDparallelizedef parallelize[T](seq: Seq[T], numSlices: Int = defaultParallelism)(i

2016-09-26 13:57:16 3006

转载 Spark算子：RDD基本转换操作(2)–coalesce、repartition

coalescedef coalesce(numPartitions: Int, shuffle: Boolean = false)(implicit ord: Ordering[T] = null): RDD[T]该函数用于将RDD进行重分区，使用HashPartitioner。第一个参数为重分区的数目，第二个为是否进行shuffle，默认为false;以下面的例

2016-09-26 13:56:49 944

转载 Spark算子：RDD基本转换操作(3)–randomSplit、glom

randomSplitdef randomSplit(weights: Array[Double], seed: Long = Utils.random.nextLong): Array[RDD[T]]该函数根据weights权重，将一个RDD切分成多个RDD。该权重参数为一个Double数组第二个参数为random的种子，基本可忽略。scala> var rd

2016-09-26 13:56:27 4421

转载 Spark算子：RDD基本转换操作(4)–union、intersection、subtract

uniondef union(other: RDD[T]): RDD[T]该函数比较简单，就是将两个RDD进行合并，不去重。 scala> var rdd1 = sc.makeRDD(1 to 2,1)rdd1: org.apache.spark.rdd.RDD[Int] = ParallelCollectionRDD[45] at makeRDD at :21 sca

2016-09-26 13:56:03 2319

转载 Spark算子：RDD基本转换操作(5)–mapPartitions、mapPartitionsWithIndex

mapPartitionsdef mapPartitions[U](f: (Iterator[T]) => Iterator[U], preservesPartitioning: Boolean = false)(implicit arg0: ClassTag[U]): RDD[U]该函数和map函数类似，只不过映射函数的参数由RDD中的每一个元素变成了RDD中每一个分区的迭代器。

2016-09-26 13:55:39 1477

转载 Spark算子：RDD基本转换操作(6)–zip、zipPartitions

zipdef zip[U](other: RDD[U])(implicit arg0: ClassTag[U]): RDD[(T, U)]zip函数用于将两个RDD组合成Key/Value形式的RDD,这里默认两个RDD的partition数量以及元素数量都相同，否则会抛出异常。scala> var rdd1 = sc.makeRDD(1 to 10,2)rdd1: org.a

2016-09-26 12:01:42 847

转载 Spark算子：RDD基本转换操作(7)–zipWithIndex、zipWithUniqueId

Spark算子：RDD基本转换操作(7)–zipWithIndex、zipWithUniqueId Spark lxw1234@qq.com 1年前 (2015-07-06) 5714℃ 0评论关键字：Spark算子、Spark RDD基本转换、zipWithIndex、zipWithUniqueIdzipWithIndexdef zipWithIndex():

2016-09-26 12:00:54 2789

转载 JVM常用参数与工具

原文出处：http://www.cnblogs.com/zhguang/p/java-jvm-gc.html目录参数设置收集器搭配启动内存分配监控工具和方法调优方法调优实例光说不练假把式，学习Java GC机制的目的是为了实用，也就是为了在JVM出现问题时分析原因并解决之。通过学习，我觉得JVM监控与调优主要的着眼点在于如何配置、如何监控、如何优化3点上。下面就将针对这3点进行学习。 ...

2016-09-23 10:02:38 1912

转载使用 Java 8 Optional 的正确姿势

我们知道 Java 8 增加了一些很有用的 API, 其中一个就是 Optional. 如果对它不稍假探索, 只是轻描淡写的认为它可以优雅的解决 NullPointException 的问题, 于是代码就开始这么写了OptionalUser> user = ...... if (user.isPresent()) { return user.getOrders();} else {

2016-09-11 11:30:23 36378 8

转载 Maven assembly实现自定义打包

maven-assembly-plugin : 是maven中针对打包任务而提供的标准插件(1)、在pom.xml 文件里面的配置说明[html] view plain copyplugin> artifactId>maven-assembly-pluginartifactId> executions>

2016-09-08 15:48:00 2540