![](https://img-blog.csdnimg.cn/20190918140213434.png?x-oss-process=image/resize,m_fixed,h_224,w_224)
Spark
国破山河在,城春草木深。
感时花溅泪,恨别鸟惊心。
烽火连三月,家书抵万金。
白头搔更短,浑欲不胜簪。
Hey 锡瑞
这个作者很懒,什么都没留下…
展开
-
Spark学习(6)——SparkSQL(1)
一、SparkSQL介绍1.1、Shark介绍hark是基于Spark计算框架之上且兼容Hive语法的SQL执行引擎,由于底层的计算采用了Spark,性能比MapReduce的Hive普遍快2倍以上,当数据全部load在内存的话,将快10倍以上,因此Shark可以作为交互式查询应用服务来使用。Shark是完全兼容Hive的语法,表结构以及UDF函数等,已有的HiveSql可以直接进行迁移至Shark上Shark底层依赖于Hive的解析器,查询优化器,但正是由于Shark的整体设计架构对Hive的转载 2020-07-06 17:23:14 · 451 阅读 · 0 评论 -
Spark学习(5)——Spark源码学习(1)
一、广播变量和累加器1.1、广播变量(1)广播变量使用val conf = new SparkConf()conf.setMaster("local").setAppName("brocast")val sc = new SparkContext(conf)val list = List("hello xasxt")val broadCast = sc.broadcast(list)val lineRDD = sc.textFile("./words.txt")lineRDD.转载 2020-07-06 16:51:14 · 311 阅读 · 0 评论 -
Spark学习(3)——Spark基于Standalone+Yarn任务提交流程详解
一、Standalone模式两种提交任务方式1.1、Standalone-client提交任务方式(1)提交命令./spark-submit --master spark://node1:7077 --class org.apache.spark.examples.SparkPi ../lib/spark-examples-1.6.0-hadoop2.6.0.jar 1000或者./spark-submit --master spark://node1:7077 --d转载 2020-07-06 15:16:55 · 499 阅读 · 0 评论 -
Spark学习(2)——Spark介绍
一、简介(1)什么是SparkApache Spark 是专为大规模数据处理而设计的快速通用的计算引擎。Spark拥有Hadoop MapReduce所具有的优点;但不同于MapReduce的是Job中间输出结果可以保存在内存中,从而不再需要读写HDFS,因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的MapReduce的算法。Spark是Scala编写,方便快速编程。(2)Spark与MapReduce的区别都是分布式计算框架,Spark基于内存,MR基于HDFS。Spark处理转载 2020-07-06 13:16:24 · 371 阅读 · 0 评论