spark
文章平均质量分 52
super选择题
这个作者很懒,什么都没留下…
展开
-
spark集群模式的部署
1.Spark 介绍 【1】.spark处理大数据的统一分析计算引擎; a.速度:在迭代循环的计算模型下,spark比Hadoop快100倍; b.易用性:spark提供多种语言的API,如Java、Python、Scala、R、SQL等 c.扩展性:在spark RDD基础上,提供一整套的分析计算模型:spark SQL、spark Str...原创 2018-12-05 18:28:46 · 791 阅读 · 0 评论 -
spark排序案例:定义三个文件对文件内容进行排序(数字)
1.排序: 定义三个文件对文件内容进行排序(数字)数据:1.txt788996672.txt808284863.txt88996677 spark代码: import org.apache.spark.{HashPartitioner, SparkConf, SparkContext}object paix...原创 2018-12-12 18:43:27 · 1990 阅读 · 0 评论 -
spark案例:给定一组键值对("spark",2),("hadoop",6),("hadoop",4),("spark",6),键值对的key表示图书名称,value表示某天图书销量
案例:给定一组键值对("spark",2),("hadoop",6),("hadoop",4),("spark",6),键值对的key 表示图书名称,value表示某天图书销量,请计算每个键对应的平均值,也就是计算每种图书的每天平均销量。 spark代码:import org.apache.spark.{SparkConf, SparkContext}o...原创 2018-12-12 18:51:46 · 3268 阅读 · 0 评论 -
spark之二次排序案例:要求先按账户排序,在按金额排序
一.Spark 二次排序:当排序的过程中,假如按照key排序使用sortByKey算子的时候,经常有很多key相同的数据,但是我们需要再次根据其他指标将相同key的数据再次细致的进行第二次的排序,这个时候我们就需要用到二次排序。并且很多场景需要三次排序,四次排序,五次甚至更多次的排序。二.案例:要求先按账户排序,在按金额排序数据如下:hadoop@apache ...原创 2018-12-12 19:28:12 · 824 阅读 · 0 评论 -
spark:单表关联案例
spark单表关联 题目:求孙子和祖父母的关系列表数据:child parentTom LucyTom JackJone LucyJone JackLucy MaryLucy BenJack AliceJack JesseTerry ...原创 2018-12-12 19:46:24 · 1026 阅读 · 0 评论 -
spark:将list里的数据保存到本地文件案例
spark:将list里的数据保存到本地文件案例代码:package sparkQLimport org.apache.spark.sql.SparkSessionobject jsonTest { case class Person(id:Int,name:String,age:Int) def main(args: Array[String]): Unit = {...原创 2018-12-17 19:07:43 · 2936 阅读 · 0 评论