spark
漱冰濯雪
这个作者很懒,什么都没留下…
展开
-
Spark RDD API
https://blog.csdn.net/liam08/article/details/79711565 RDD是啥Resilient Distributed Dataset (RDD),弹性分布式数据集,是对不可修改,分区的数据集合的抽象。RDD is characterized by five main properties: A list of partition...转载 2019-01-04 14:37:47 · 259 阅读 · 0 评论 -
spark中算子详解:aggregateByKey
https://blog.csdn.net/jiaotongqu6470/article/details/78457966 通过scala集合以并行化方式创建一个RDDscala> val pairRdd = sc.parallelize(List(("cat",2),("cat",5),("mouse",4),("cat",12),("dog",12),("mouse&转载 2019-01-04 16:36:36 · 1250 阅读 · 3 评论 -
Spark自定义排序
排序规则:先按照年龄排序,年龄小的往前排,年龄如果相同,按照按照作品次数排序方式一import org.apache.spark.rdd.RDDimport org.apache.spark.{SparkConf, SparkContext}object CustomSortDemo1 { def main(args: Array[String]): Unit = { ...转载 2019-01-10 14:35:33 · 260 阅读 · 0 评论 -
Spark2.x 如何实现自定义排序(利用元组,类--隐式转换Ordering,Ordered等实现)
需求:对于有复杂排序条件的需求,可以利用自定义排序来实现,同时可以使用多种方案实现自定义排序需求。对指定的数据(字段分别为:名称 年龄 颜值,数据以空格分割),按照指定的要求排序,排序要求为:根据颜值降序,如果颜值相同,再按照年龄升序排序。示例数据:"pp 30 85", "dd 18 100", "taoge 35 100", "laozhao 30 120", "huge 2...原创 2019-01-10 14:52:06 · 882 阅读 · 0 评论 -
Spark配置参数
http://blog.javachen.com/2015/06/07/spark-configuration.html以下是整理的Spark中的一些配置参数,官方文档请参考Spark Configuration。Spark提供三个位置用来配置系统:Spark属性:控制大部分的应用程序参数,可以用SparkConf对象或者Java系统属性设置 环境变量:可以通过每个节点的 conf/...转载 2019-01-14 17:06:31 · 852 阅读 · 0 评论