- 博客(12)
- 资源 (1)
- 收藏
- 关注
转载 Spark分区器HashPartitioner和RangePartitioner代码详解
在Spark中分区器直接决定了RDD中分区的个数;也决定了RDD中每条数据经过Shuffle过程属于哪个分区;也决定了Reduce的个数。这三点看起来是不同的方面的,但其深层的含义是一致的。 我们需要注意的是,只有Key-Value类型的RDD才有分区的,非Key-Value类型的RDD分区的值是None的。 在Spark中,存在两类分区函数:HashPartition
2016-07-24 15:55:04 1275
转载 水塘抽样(Reservoir Sampling)问题
在高德纳的计算机程序设计艺术中,有如下问题:可否在一未知大小的集合中,随机取出一元素?。或者是Google面试题: I have a linked list of numbers of length N. N is very large and I don’t know in advance the exact value of N. How can I most efficiently wr
2016-07-24 15:38:51 2053
转载 Spark算子:RDD行动Action操作(7)–saveAsNewAPIHadoopFile、saveAsNewAPIHadoopDataset
saveAsNewAPIHadoopFiledef saveAsNewAPIHadoopFile[F def saveAsNewAPIHadoopFile(path: String, keyClass: Class[_], valueClass: Class[_], outputFormatClass: Class[_ saveAsNewAPIHadoopFile用于将RDD数
2016-07-22 23:08:56 1722
转载 Spark算子:RDD行动Action操作(6)–saveAsHadoopFile、saveAsHadoopDataset
saveAsHadoopFiledef saveAsHadoopFile(path: String, keyClass: Class[_], valueClass: Class[_], outputFormatClass: Class[_ def saveAsHadoopFile(path: String, keyClass: Class[_], valueClass: Class[_
2016-07-22 23:07:09 7818
转载 Spark算子:RDD行动Action操作(5)–saveAsTextFile、saveAsSequenceFile、saveAsObjectFile
saveAsTextFiledef saveAsTextFile(path: String): Unitdef saveAsTextFile(path: String, codec: Class[_ saveAsTextFile用于将RDD以文本文件的格式存储到文件系统中。codec参数可以指定压缩的类名。var rdd1 = sc.makeRDD(1 to 1
2016-07-22 12:18:13 8958 1
转载 Spark算子:RDD行动Action操作(4)–countByKey、foreach、foreachPartition、sortBy
countByKeydef countByKey(): Map[K, Long]countByKey用于统计RDD[K,V]中每个K的数量。scala> var rdd1 = sc.makeRDD(Array(("A",0),("A",2),("B",1),("B",2),("B",3)))rdd1: org.apache.spark.rdd.RDD[(String, Int)] =
2016-07-22 12:13:45 3768
转载 Spark算子:RDD行动Action操作(3)–aggregate、fold、lookup
aggregatedef aggregate[U](zeroValue: U)(seqOp: (U, T) ⇒ U, combOp: (U, U) ⇒ U)(implicit arg0: ClassTag[U]): Uaggregate用户聚合RDD中的元素,先使用seqOp将RDD中每个分区中的T类型元素聚合成U类型,再使用combOp将之前每个分区聚合后的U类型聚合成U类型,特别注
2016-07-22 12:06:42 4664
转载 Spark算子:RDD行动Action操作(2)–take、top、takeOrdered
takedef take(num: Int): Array[T]take用于获取RDD中从0到num-1下标的元素,不排序。scala> var rdd1 = sc.makeRDD(Seq(10, 4, 2, 12, 3))rdd1: org.apache.spark.rdd.RDD[Int] = ParallelCollectionRDD[40] at makeRDD at
2016-07-22 12:01:48 1851
转载 Spark算子:RDDAction操作–first/count/reduce/collect/collectAsMap
firstdef first(): Tfirst返回RDD中的第一个元素,不排序。scala> var rdd1 = sc.makeRDD(Array(("A","1"),("B","2"),("C","3")),2)rdd1: org.apache.spark.rdd.RDD[(String, String)] = ParallelCollectionRDD[33] at make
2016-07-22 11:58:07 4456
转载 Spark算子:RDD键值转换操作(5)–leftOuterJoin、rightOuterJoin、subtractByKey
leftOuterJoindef leftOuterJoin[W](other: RDD[(K, W)]): RDD[(K, (V, Option[W]))]def leftOuterJoin[W](other: RDD[(K, W)], numPartitions: Int): RDD[(K, (V, Option[W]))]def leftOuterJoin[W](ot
2016-07-22 11:55:05 3692
转载 Spark算子:RDD键值转换操作(4)–cogroup/join
cogroup##参数为1个RDDdef cogroup[W](other: RDD[(K, W)]): RDD[(K, (Iterable[V], Iterable[W]))]def cogroup[W](other: RDD[(K, W)], numPartitions: Int): RDD[(K, (Iterable[V], Iterable[W]))]
2016-07-22 11:13:17 593
转载 sklearn中常用数据预处理方法
转载自:http://2hwp.com/2016/02/03/data-preprocessing/常见的数据预处理方法,以下通过sklearn的preprocessing模块来介绍;1. 标准化(Standardization or Mean Removal and Variance Scaling)变换后各维特征有0均值,单位方差。也叫z-score规范化(零均值规范化
2016-07-18 10:57:03 27310
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人