2016年12月_翔飞天宇

12月 11月 10月 09月 08月 07月 06月 05月 04月 03月 02月

原创 Spark算子系列文章

Spark算子：RDD基本转换操作(1)–map、flagMap、distinctSpark算子：RDD创建操作Spark算子：RDD基本转换操作(2)–coalesce、repartitionSpark算子：RDD基本转换操作(3)–randomSplit、glomSpark算子：RDD基本转换操作(4)–union、intersection、subtract

2016-12-27 14:40:12 1551

转载 Spark: sortBy和sortByKey函数详解

在很多应用场景都需要对结果数据进行排序，Spark中有时也不例外。在Spark中存在两种对RDD进行排序的函数，分别是 sortBy和sortByKey函数。sortBy是对标准的RDD进行排序，它是从Spark 0.9.0之后才引入的（可以参见SPARK-1063）。而sortByKey函数是对PairRDD进行排序，也就是有Key和Value的RDD。下面将分别对这两个函数的实现以及使用进

2016-12-30 09:53:50 2118

原创 spark中的cache() persist() checkpoint()之间的区别

cache()与persist()：会被重复使用的(但是)不能太大的RDD需要cache。cache 只使用 memory，写磁盘的话那就叫 checkpoint 了。哪些 RDD 需要 checkpoint？运算时间很长或运算量太大才能得到的 RDD，computing chain 过长或依赖其他 RDD 很多的 RDD。实际上，将 ShuffleMapTask 的输出结果存放到本地磁盘

2016-12-27 17:51:54 16024 5

转载 Spark RDD、DataFrame和DataSet的区别

转自：http://blog.csdn.NET/wo334499/article/details/51689549 RDD优点:编译时类型安全编译时就能检查出类型错误面向对象的编程风格直接通过类名点的方式来操作数据缺点:序列化和反序列化的性能开销无论是集群间的通信, 还是IO操作都需要对对象的结构和数据进行序列化和反序列化.GC的性

2016-12-27 15:58:36 710

转载 Spark算子：RDD基本转换操作(7)–zipWithIndex、zipWithUniqueId

关键字：Spark算子、Spark RDD基本转换、zipWithIndex、zipWithUniqueIdzipWithIndexdef zipWithIndex(): RDD[(T, Long)]该函数将RDD中的元素和这个元素在RDD中的ID（索引号）组合成键/值对。scala> var rdd2 = sc.makeRDD(Seq("A","B","R","D","F"),2

2016-12-27 14:29:37 1728

转载 Spark算子：RDD基本转换操作(6)–zip、zipPartitions

关键字：Spark算子、Spark RDD基本转换、zip、zipPartitionszipdef zip[U](other: RDD[U])(implicit arg0: ClassTag[U]): RDD[(T, U)]zip函数用于将两个RDD组合成Key/Value形式的RDD,这里默认两个RDD的partition数量以及元素数量都相同，否则会抛出异常。scala> va

2016-12-27 14:24:05 636

转载 Spark算子：RDD基本转换操作(5)–mapPartitions、mapPartitionsWithIndex

关键字：Spark算子、Spark RDD基本转换、mapPartitions、mapPartitionsWithIndexmapPartitionsdef mapPartitions[U](f: (Iterator[T]) => Iterator[U], preservesPartitioning: Boolean = false)(implicit arg0: ClassTag[U])

2016-12-27 13:55:16 691

转载 Spark算子：RDD基本转换操作(4)–union、intersection、subtract

关键字：Spark算子、Spark RDD基本转换、union、intersection、subtractuniondef union(other: RDD[T]): RDD[T]该函数比较简单，就是将两个RDD进行合并，不去重。 scala> var rdd1 = sc.makeRDD(1 to 2,1)rdd1: org.apache.spark.rdd.RDD[Int]

2016-12-27 13:44:18 7140

转载 Spark算子：RDD基本转换操作(3)–randomSplit、glom

关键字：Spark算子、Spark RDD基本转换、randomSplit、glomrandomSplitdef randomSplit(weights: Array[Double], seed: Long = Utils.random.nextLong): Array[RDD[T]]该函数根据weights权重，将一个RDD切分成多个RDD。该权重参数为一个Double数组第

2016-12-27 13:34:53 1496

转载 Spark算子：RDD基本转换操作(2)–coalesce、repartition

关键字：Spark算子、Spark RDD基本转换、coalesce、repartitioncoalescedef coalesce(numPartitions: Int, shuffle: Boolean = false)(implicit ord: Ordering[T] = null): RDD[T]该函数用于将RDD进行重分区，使用HashPartitioner。第一个参数

2016-12-27 13:20:43 960

转载 Spark算子：RDD基本转换操作(1)–map、flagMap、distinct

关键字：Spark算子、Spark RDD基本转换、map、flatMap、distinctmap将一个RDD中的每个数据项，通过map中的函数映射变为一个新的元素。输入分区与输出分区一对一，即：有多少个输入分区，就有多少个输出分区。hadoop fs -cat /tmp/lxw1234/1.txthello worldhello sparkhello hive //读取HD

2016-12-27 11:48:58 1266

转载 Spark算子：统计RDD分区中的元素及数量

关键字：Spark算子、Spark RDD分区、Spark RDD分区元素数量Spark RDD是被分区的，在生成RDD时候，一般可以指定分区的数量，如果不指定分区数量，当RDD从集合创建时候，则默认为该程序所分配到的资源的CPU核数，如果是从HDFS文件创建，默认为文件的Block数。可以利用RDD的mapPartitionsWithIndex方法来统计每个分区中的元素及数量。关于m

2016-12-26 17:48:33 1642

转载 Spark算子：RDD创建操作

关键字：Spark RDD 创建、parallelize、makeRDD、textFile、hadoopFile、hadoopRDD、newAPIHadoopFile、newAPIHadoopRDD从集合创建RDDparallelizedef parallelize[T](seq: Seq[T], numSlices: Int = defaultParallelism)(impli

2016-12-26 17:39:41 737

转载 Spark算子：RDD行动Action操作(7)–saveAsNewAPIHadoopFile、saveAsNewAPIHadoopDataset

关键字：Spark算子、Spark函数、Spark RDD行动Action、Spark RDD存储操作、saveAsNewAPIHadoopFile、saveAsNewAPIHadoopDatasetsaveAsNewAPIHadoopFiledef saveAsNewAPIHadoopFile[F def saveAsNewAPIHadoopFile(path: String, ke

2016-12-26 16:56:24 1602

转载 Spark算子：RDD行动Action操作(6)–saveAsHadoopFile、saveAsHadoopDataset

关键字：Spark算子、Spark函数、Spark RDD行动Action、Spark RDD存储操作、saveAsHadoopFile、saveAsHadoopDatasetsaveAsHadoopFiledef saveAsHadoopFile(path: String, keyClass: Class[_], valueClass: Class[_], outputFormatCla

2016-12-26 16:52:07 1348

转载 Spark算子：RDD行动Action操作(5)–saveAsTextFile、saveAsSequenceFile、saveAsObjectFile

关键字：Spark算子、Spark函数、Spark RDD行动Action、Spark RDD存储操作、saveAsTextFile、saveAsSequenceFile、saveAsObjectFilesaveAsTextFiledef saveAsTextFile(path: String): Unitdef saveAsTextFile(path: String, codec:

2016-12-26 16:36:17 2549

转载 Spark算子：RDD行动Action操作(4)–countByKey、foreach、foreachPartition、sortBy

关键字：Spark算子、Spark函数、Spark RDD行动Action、countByKey、foreach、foreachPartition、sortBycountByKeydef countByKey(): Map[K, Long]countByKey用于统计RDD[K,V]中每个K的数量。scala> var rdd1 = sc.makeRDD(Array(("A",0)

2016-12-26 16:31:20 1463

转载 Spark算子：RDD行动Action操作(3)–aggregate、fold、lookup

关键字：Spark算子、Spark函数、Spark RDD行动Action、aggregate、fold、lookupaggregatedef aggregate[U](zeroValue: U)(seqOp: (U, T) ⇒ U, combOp: (U, U) ⇒ U)(implicit arg0: ClassTag[U]): Uaggregate用户聚合RDD中的元素，先使用se

2016-12-26 16:08:11 722

转载 Spark算子：RDD行动Action操作(2)–take、top、takeOrdered

关键字：Spark算子、Spark RDD行动Action、take、top、takeOrderedtakedef take(num: Int): Array[T]take用于获取RDD中从0到num-1下标的元素，不排序。scala> var rdd1 = sc.makeRDD(Seq(10, 4, 2, 12, 3))rdd1: org.apache.spark.rdd.RDD

2016-12-26 15:51:48 5514

转载 Spark算子：RDD行动Action操作(1)–first、count、reduce、collect

关键字：Spark算子、Spark RDD行动Action、first、count、reduce、collectfirstdef first(): Tfirst返回RDD中的第一个元素，不排序。scala> var rdd1 = sc.makeRDD(Array(("A","1"),("B","2"),("C","3")),2)rdd1: org.apache.spark.rdd.

2016-12-26 15:46:47 912

转载 Spark算子：RDD键值转换操作(5)–leftOuterJoin、rightOuterJoin、subtractByKey

关键字：Spark算子、Spark RDD键值转换、leftOuterJoin、rightOuterJoin、subtractByKeyleftOuterJoindef leftOuterJoin[W](other: RDD[(K, W)]): RDD[(K, (V, Option[W]))]def leftOuterJoin[W](other: RDD[(K, W)], numPar

2016-12-26 15:35:31 2554

转载 Spark算子：RDD键值转换操作(4)–cogroup、join

关键字：Spark算子、Spark RDD键值转换、cogroup、joincogroup##参数为1个RDDdef cogroup[W](other: RDD[(K, W)]): RDD[(K, (Iterable[V], Iterable[W]))]def cogroup[W](other: RDD[(K, W)], numPartitions: Int): RDD[(K, (

2016-12-26 15:25:07 677

转载 Spark算子：RDD键值转换操作(3)–groupByKey、reduceByKey、reduceByKeyLocally

关键字：Spark算子、Spark RDD键值转换、groupByKey、reduceByKey、reduceByKeyLocallygroupByKeydef groupByKey(): RDD[(K, Iterable[V])]def groupByKey(numPartitions: Int): RDD[(K, Iterable[V])]def groupByKey(part

2016-12-26 15:09:59 703

转载 Spark算子：RDD键值转换操作(2)–combineByKey、foldByKey

关键字：Spark算子、Spark RDD键值转换、combineByKey、foldByKeycombineByKeydef combineByKey[C](createCombiner: (V) => C, mergeValue: (C, V) => C, mergeCombiners: (C, C) => C): RDD[(K, C)]def combineByKey[C](cr

2016-12-26 14:52:26 617

转载 Spark算子：RDD键值转换操作(1)–partitionBy、mapValues、flatMapValues

关键字：Spark算子、Spark RDD键值转换、partitionBy、mapValues、flatMapValuespartitionBydef partitionBy(partitioner: Partitioner): RDD[(K, V)]该函数根据partitioner函数生成新的ShuffleRDD，将原RDD重新分区。scala> var rdd1 =

2016-12-26 14:49:21 1136

原创在scala中:: , +:, :+, :::, +++的区别总结

初学scala的人都会被Seq的各种操作符所confuse。下面简单列举一下各个Seq操作符的区别。4种操作符的区别和联系:: 该方法被称为cons，意为构造，向队列的头部追加数据，创造新的列表。用法为 x::list,其中x为加入到头部的元素，无论x是列表与否，它都只将成为新生成列表的第一个元素，也就是说新生成的列表长度为list的长度＋1(btw,x::list等价于lis

2016-12-26 13:59:43 6956 1

原创 windows中链接远端服务器中的Oracle相关问题总结

一、每次windows中连接Linux的xshell终端退出时，将出现windows中Oracle链接不上1.Linux开机自动启动ORACLE设置前提安装好oracle的linux系统以root的身份进行登陆进Linux中安装好Oracle数据库后: 执行 dbstart和dbshut会提示： su oracle 切换Oracle用户[oracle@oracl

2016-12-16 10:00:59 545

A Discriminant Framework Detecting Similar Scientific Based on Big Data Mining

大数据与数据挖掘的结合

2014-10-15

Towards Big Data Bayesian Network Learning - An Ensemble Learning Based Approach

大数据与神经网络的结合

2014-10-15

Understanding Student Behaviors in Online Classroom_Data Scientific Approach

Understanding Student Behaviors in Online Classroom_Data Scientific Approach 大数据与机器学习的结合，大数据与神经网络的结合

2014-10-15

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人