自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

Rocky

不积跬步,无以至千里;不积小流,无以成江海

  • 博客(27)
  • 资源 (6)
  • 收藏
  • 关注

原创 Spark算子系列文章

Spark算子:RDD基本转换操作(1)–map、flagMap、distinctSpark算子:RDD创建操作Spark算子:RDD基本转换操作(2)–coalesce、repartitionSpark算子:RDD基本转换操作(3)–randomSplit、glomSpark算子:RDD基本转换操作(4)–union、intersection、subtract

2016-12-27 14:40:12 1551

转载 Spark: sortBy和sortByKey函数详解

在很多应用场景都需要对结果数据进行排序,Spark中有时也不例外。在Spark中存在两种对RDD进行排序的函数,分别是 sortBy和sortByKey函数。sortBy是对标准的RDD进行排序,它是从Spark 0.9.0之后才引入的(可以参见SPARK-1063)。而sortByKey函数是对PairRDD进行排序,也就是有Key和Value的RDD。下面将分别对这两个函数的实现以及使用进

2016-12-30 09:53:50 2118

原创 spark中的cache() persist() checkpoint()之间的区别

cache()与persist():会被重复使用的(但是)不能太大的RDD需要cache。cache 只使用 memory,写磁盘的话那就叫 checkpoint 了。 哪些 RDD 需要 checkpoint?运算时间很长或运算量太大才能得到的 RDD,computing chain 过长或依赖其他 RDD 很多的 RDD。 实际上,将 ShuffleMapTask 的输出结果存放到本地磁盘

2016-12-27 17:51:54 16024 5

转载 Spark RDD、DataFrame和DataSet的区别

转自:http://blog.csdn.NET/wo334499/article/details/51689549 RDD优点:编译时类型安全 编译时就能检查出类型错误面向对象的编程风格 直接通过类名点的方式来操作数据缺点:序列化和反序列化的性能开销 无论是集群间的通信, 还是IO操作都需要对对象的结构和数据进行序列化和反序列化.GC的性

2016-12-27 15:58:36 710

转载 Spark算子:RDD基本转换操作(7)–zipWithIndex、zipWithUniqueId

关键字:Spark算子、Spark RDD基本转换、zipWithIndex、zipWithUniqueIdzipWithIndexdef zipWithIndex(): RDD[(T, Long)]该函数将RDD中的元素和这个元素在RDD中的ID(索引号)组合成键/值对。scala> var rdd2 = sc.makeRDD(Seq("A","B","R","D","F"),2

2016-12-27 14:29:37 1728

转载 Spark算子:RDD基本转换操作(6)–zip、zipPartitions

关键字:Spark算子、Spark RDD基本转换、zip、zipPartitionszipdef zip[U](other: RDD[U])(implicit arg0: ClassTag[U]): RDD[(T, U)]zip函数用于将两个RDD组合成Key/Value形式的RDD,这里默认两个RDD的partition数量以及元素数量都相同,否则会抛出异常。scala> va

2016-12-27 14:24:05 636

转载 Spark算子:RDD基本转换操作(5)–mapPartitions、mapPartitionsWithIndex

关键字:Spark算子、Spark RDD基本转换、mapPartitions、mapPartitionsWithIndexmapPartitionsdef mapPartitions[U](f: (Iterator[T]) => Iterator[U], preservesPartitioning: Boolean = false)(implicit arg0: ClassTag[U])

2016-12-27 13:55:16 691

转载 Spark算子:RDD基本转换操作(4)–union、intersection、subtract

关键字:Spark算子、Spark RDD基本转换、union、intersection、subtractuniondef union(other: RDD[T]): RDD[T]该函数比较简单,就是将两个RDD进行合并,不去重。 scala> var rdd1 = sc.makeRDD(1 to 2,1)rdd1: org.apache.spark.rdd.RDD[Int]

2016-12-27 13:44:18 7140

转载 Spark算子:RDD基本转换操作(3)–randomSplit、glom

关键字:Spark算子、Spark RDD基本转换、randomSplit、glomrandomSplitdef randomSplit(weights: Array[Double], seed: Long = Utils.random.nextLong): Array[RDD[T]]该函数根据weights权重,将一个RDD切分成多个RDD。该权重参数为一个Double数组第

2016-12-27 13:34:53 1496

转载 Spark算子:RDD基本转换操作(2)–coalesce、repartition

关键字:Spark算子、Spark RDD基本转换、coalesce、repartitioncoalescedef coalesce(numPartitions: Int, shuffle: Boolean = false)(implicit ord: Ordering[T] = null): RDD[T]该函数用于将RDD进行重分区,使用HashPartitioner。第一个参数

2016-12-27 13:20:43 960

转载 Spark算子:RDD基本转换操作(1)–map、flagMap、distinct

关键字:Spark算子、Spark RDD基本转换、map、flatMap、distinctmap将一个RDD中的每个数据项,通过map中的函数映射变为一个新的元素。输入分区与输出分区一对一,即:有多少个输入分区,就有多少个输出分区。hadoop fs -cat /tmp/lxw1234/1.txthello worldhello sparkhello hive  //读取HD

2016-12-27 11:48:58 1266

转载 Spark算子:统计RDD分区中的元素及数量

关键字:Spark算子、Spark RDD分区、Spark RDD分区元素数量Spark RDD是被分区的,在生成RDD时候,一般可以指定分区的数量,如果不指定分区数量,当RDD从集合创建时候,则默认为该程序所分配到的资源的CPU核数,如果是从HDFS文件创建,默认为文件的Block数。可以利用RDD的mapPartitionsWithIndex方法来统计每个分区中的元素及数量。关于m

2016-12-26 17:48:33 1642

转载 Spark算子:RDD创建操作

关键字:Spark RDD 创建、parallelize、makeRDD、textFile、hadoopFile、hadoopRDD、newAPIHadoopFile、newAPIHadoopRDD从集合创建RDDparallelizedef parallelize[T](seq: Seq[T], numSlices: Int = defaultParallelism)(impli

2016-12-26 17:39:41 737

转载 Spark算子:RDD行动Action操作(7)–saveAsNewAPIHadoopFile、saveAsNewAPIHadoopDataset

关键字:Spark算子、Spark函数、Spark RDD行动Action、Spark RDD存储操作、saveAsNewAPIHadoopFile、saveAsNewAPIHadoopDatasetsaveAsNewAPIHadoopFiledef saveAsNewAPIHadoopFile[F def saveAsNewAPIHadoopFile(path: String, ke

2016-12-26 16:56:24 1602

转载 Spark算子:RDD行动Action操作(6)–saveAsHadoopFile、saveAsHadoopDataset

关键字:Spark算子、Spark函数、Spark RDD行动Action、Spark RDD存储操作、saveAsHadoopFile、saveAsHadoopDatasetsaveAsHadoopFiledef saveAsHadoopFile(path: String, keyClass: Class[_], valueClass: Class[_], outputFormatCla

2016-12-26 16:52:07 1348

转载 Spark算子:RDD行动Action操作(5)–saveAsTextFile、saveAsSequenceFile、saveAsObjectFile

关键字:Spark算子、Spark函数、Spark RDD行动Action、Spark RDD存储操作、saveAsTextFile、saveAsSequenceFile、saveAsObjectFilesaveAsTextFiledef saveAsTextFile(path: String): Unitdef saveAsTextFile(path: String, codec:

2016-12-26 16:36:17 2549

转载 Spark算子:RDD行动Action操作(4)–countByKey、foreach、foreachPartition、sortBy

关键字:Spark算子、Spark函数、Spark RDD行动Action、countByKey、foreach、foreachPartition、sortBycountByKeydef countByKey(): Map[K, Long]countByKey用于统计RDD[K,V]中每个K的数量。scala> var rdd1 = sc.makeRDD(Array(("A",0)

2016-12-26 16:31:20 1463

转载 Spark算子:RDD行动Action操作(3)–aggregate、fold、lookup

关键字:Spark算子、Spark函数、Spark RDD行动Action、aggregate、fold、lookupaggregatedef aggregate[U](zeroValue: U)(seqOp: (U, T) ⇒ U, combOp: (U, U) ⇒ U)(implicit arg0: ClassTag[U]): Uaggregate用户聚合RDD中的元素,先使用se

2016-12-26 16:08:11 722

转载 Spark算子:RDD行动Action操作(2)–take、top、takeOrdered

关键字:Spark算子、Spark RDD行动Action、take、top、takeOrderedtakedef take(num: Int): Array[T]take用于获取RDD中从0到num-1下标的元素,不排序。scala> var rdd1 = sc.makeRDD(Seq(10, 4, 2, 12, 3))rdd1: org.apache.spark.rdd.RDD

2016-12-26 15:51:48 5514

转载 Spark算子:RDD行动Action操作(1)–first、count、reduce、collect

关键字:Spark算子、Spark RDD行动Action、first、count、reduce、collectfirstdef first(): Tfirst返回RDD中的第一个元素,不排序。scala> var rdd1 = sc.makeRDD(Array(("A","1"),("B","2"),("C","3")),2)rdd1: org.apache.spark.rdd.

2016-12-26 15:46:47 912

转载 Spark算子:RDD键值转换操作(5)–leftOuterJoin、rightOuterJoin、subtractByKey

关键字:Spark算子、Spark RDD键值转换、leftOuterJoin、rightOuterJoin、subtractByKeyleftOuterJoindef leftOuterJoin[W](other: RDD[(K, W)]): RDD[(K, (V, Option[W]))]def leftOuterJoin[W](other: RDD[(K, W)], numPar

2016-12-26 15:35:31 2554

转载 Spark算子:RDD键值转换操作(4)–cogroup、join

关键字:Spark算子、Spark RDD键值转换、cogroup、joincogroup##参数为1个RDDdef cogroup[W](other: RDD[(K, W)]): RDD[(K, (Iterable[V], Iterable[W]))]def cogroup[W](other: RDD[(K, W)], numPartitions: Int): RDD[(K, (

2016-12-26 15:25:07 677

转载 Spark算子:RDD键值转换操作(3)–groupByKey、reduceByKey、reduceByKeyLocally

关键字:Spark算子、Spark RDD键值转换、groupByKey、reduceByKey、reduceByKeyLocallygroupByKeydef groupByKey(): RDD[(K, Iterable[V])]def groupByKey(numPartitions: Int): RDD[(K, Iterable[V])]def groupByKey(part

2016-12-26 15:09:59 703

转载 Spark算子:RDD键值转换操作(2)–combineByKey、foldByKey

关键字:Spark算子、Spark RDD键值转换、combineByKey、foldByKeycombineByKeydef combineByKey[C](createCombiner: (V) => C, mergeValue: (C, V) => C, mergeCombiners: (C, C) => C): RDD[(K, C)]def combineByKey[C](cr

2016-12-26 14:52:26 617

转载 Spark算子:RDD键值转换操作(1)–partitionBy、mapValues、flatMapValues

关键字:Spark算子、Spark RDD键值转换、partitionBy、mapValues、flatMapValuespartitionBydef partitionBy(partitioner: Partitioner): RDD[(K, V)]该函数根据partitioner函数生成新的ShuffleRDD,将原RDD重新分区。scala> var rdd1 =

2016-12-26 14:49:21 1136

原创 在scala中:: , +:, :+, :::, +++的区别总结

初学scala的人都会被Seq的各种操作符所confuse。下面简单列举一下各个Seq操作符的区别。4种操作符的区别和联系:: 该方法被称为cons,意为构造,向队列的头部追加数据,创造新的列表。用法为 x::list,其中x为加入到头部的元素,无论x是列表与否,它都只将成为新生成列表的第一个元素,也就是说新生成的列表长度为list的长度+1(btw,x::list等价于lis

2016-12-26 13:59:43 6956 1

原创 windows中链接远端服务器中的Oracle相关问题总结

一、每次windows中连接Linux的xshell终端退出时,将出现windows中Oracle链接不上1.Linux开机自动启动ORACLE设置前提安装好oracle的linux系统以root的身份进行登陆进Linux中安装好Oracle数据库后: 执行 dbstart和dbshut会提示: su oracle 切换Oracle用户[oracle@oracl

2016-12-16 10:00:59 545

A Discriminant Framework Detecting Similar Scientific Based on Big Data Mining

大数据与数据挖掘的结合

2014-10-15

Towards Big Data Bayesian Network Learning - An Ensemble Learning Based Approach

大数据与神经网络的结合

2014-10-15

Understanding Student Behaviors in Online Classroom_Data Scientific Approach

Understanding Student Behaviors in Online Classroom_Data Scientific Approach 大数据与机器学习的结合,大数据与神经网络的结合

2014-10-15

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除