![](https://img-blog.csdnimg.cn/20201014180756738.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
SparkCore
文章平均质量分 73
Mr云飞
书山有路勤为径,学海无涯苦作舟。锲而舍之,朽木不折;锲而不舍,金石可镂。
展开
-
SparkCore(4)调优
概述:Spark的调优主要有三个方面 1.Data Serialization ****(1)Java serialization:默认情况下,Spark使用Java的ObjectOutputStream框架序列化对象,并且可以使用您创建的任何实现Java .io. serializable类。还可以通过扩展java.io.Externalizable更紧密地控制序列化的性能。Jav...原创 2018-11-02 20:55:55 · 129 阅读 · 0 评论 -
SparkCore2
1.Glossary(1)Application(应用,创建了一个SparkContext就是一个Application)=1个Driver program + n 个executors(2)Application jar:表示就是Application的主类。(3)Driver progrem:就是你的main方法并且创建了SparkContext。这是一个进程(4)Clus...原创 2018-10-27 15:59:03 · 170 阅读 · 0 评论 -
SparkCore1
1.RDD的五大特性?(1)A list of partition:他是RDD的基本构成,就是一系列分区。(2)A function for computing each split/partitio:一个计算方法是作用在每个分区上面的。(3)A list of dependencies on other RDDs:RDD会记录它的依赖 ,为了容错(重算,cache,checkpoin...原创 2018-10-24 20:20:54 · 103 阅读 · 0 评论 -
Spark:Task not serializable
package HomeWork.Core_logAnalyimport org.apache.spark.{SparkConf, SparkContext}/*** * User:yunfei * Date:22/10/23 * Description: * 日志文件格式: * 域名 流量 资源 ip 访问时间 * * www.zhibo8.com 304...原创 2018-10-24 20:20:01 · 276 阅读 · 0 评论 -
SparkCore(3)
1.Spark on YARN (Client模式)(1)概述:将Spark作业提交到yarn上去执行,Spark仅仅作为一个客户端。(2)回顾yran的架构阐述:客户端要提交一个yarn的作业,首先要通过Resource manager去申请一个container在node mananger上,用来跑application master,然后applicati...原创 2018-10-29 21:24:26 · 144 阅读 · 0 评论 -
RDD操作(5)
1.join在Spark中的应用(1)join至少需要2个数据集。结果分析,A、C这些就相当于join的条件,这是inner join只返回左右都匹配上的。(2)leftOuterjoin结果分析:left左边有的都需要列出来,但右边不一定有,没有的就是None。 Array[(String, (String, Option[String]))] = Array((F,(f...原创 2018-10-23 15:53:44 · 144 阅读 · 0 评论 -
初识Spark
1.Spark是什么?(1)Spark,是一种快速通用的大数据计算框架,正如传统大数据技术 Hadoop的MapReduce、Hive引擎,以及Storm流式实时计算引擎等。(2)Spark包含了大数据领域常见的各种计算框架:比如SparkCore用于离线计算,SparkStreaming用于实时流式计算,SparkSQL用于交互式查询,SparkMLib用于机器学习,SparkGraph...原创 2018-10-20 19:39:10 · 146 阅读 · 0 评论 -
SparkCore(4)
上节课回顾:(1)Spark on YARN 是不需要启动spark的任何东西的,找台机器布一下Spark就好提交作业。(2)Spark on YARN的俩种模式的区别。取决于Driver跑在哪里,跑在client就local模式,跑在AM就是yarn(3)Spark shell不能是cluster模式,当他使用cluster模式,是不是代表了Driver在cluster集群里面,那他...原创 2018-11-02 16:09:34 · 107 阅读 · 0 评论 -
RDD操作(4)
一、RDD Operations1.Transfoamation(1)概述:就是一个RDD转换成为另外一个RDD (体现了RDD是不可变的)Example:map :RDDA map RDDB(2)所有的transformation都是lazy(用到的时候才去加载,不用就不处理)的,所以他不会立刻去计算结果,他仅仅只是记住你的数据集transformation关系。Ex...原创 2018-10-19 18:36:02 · 141 阅读 · 0 评论 -
SparkContext详解
1.SparkContext是什么?他类似于javaSpringContext,是一个容器,里面装各种各样的资源。2.SparkContext的基本了解(1)Initializing Spark(初始化spark)(2)告诉spark如何去连接集群(local、yarn、stand)(3)在创建SparkContext之前,要先创建一个SparkConf,它包含你的一些应用程序...原创 2018-10-16 16:05:25 · 6979 阅读 · 0 评论 -
RDD操作(3)
一、如何创建RDD?1.parallelizing an existing collection in your driver program:并行化一个现有的集合来创建RDDExample:scala> val data=Array(1,2,3,4,5)data: Array[Int] = Array(1, 2, 3, 4, 5)scala> val dts=sc.p...原创 2018-10-18 18:35:50 · 214 阅读 · 0 评论 -
RDD深入讲解
1.RDD的作用(1)让开发者大大降低开发分布式应用程序的门槛以及提高执行效率(特指和其他框架做对比)例如:其他框架你要考虑数据的拆分、通信机制、作业挂了如何处理、作业调度、序列化等等。但是这些在RDD中直接通过map、reduce就可以完成了。2.什么是RDD?(1)RDD: Resilient Distributed dataset(弹性 分布式 数据集)弹性:体现在...原创 2018-10-13 14:52:42 · 498 阅读 · 0 评论 -
SparkSQL03
1.回顾前面的内容DF是个数据集,是按列处理的,是关系数据表里面的一张表RDD转成DF,加载数据进来就是RDD,第一种case class 通过反射的机制来拿到外面的DF,第二种通过是手工编程的方式,structType 好处是可以指定字段的类型,坏处是有点麻烦。structField这里面装的是列的名,列的数据类型,是否为空,SQL2的内容一定要熟练到脱口而出。2.External...原创 2018-11-13 14:40:45 · 111 阅读 · 0 评论