spark
potpof
这个作者很懒,什么都没留下…
展开
-
关于Spark on yarn
Cluster 模式./bin/spark-submit \--class com.qf.spark.day1.WordCount\--master yarn \--deploy-mode cluster \--driver-memory 1g \--executor-memory 1g \--executor-cores 2 \--queue default \/home/bi...原创 2020-02-27 23:05:25 · 248 阅读 · 1 评论 -
SparkKafka01
Redis存储Offset(重点)获取redis连接从redis获取Offset(有或者无)更新Offset到redis在使用Redis连接的时候,注意一点,Connection连接无法被序列化,也就是说在Driver创建的连接,无法发送到Executor内部使用,需要在Executor内部创建单独的连接操作,才可以使用数据的累加或者计算操作,而且Driver负责维护Offset,此连...原创 2019-11-22 11:59:58 · 120 阅读 · 0 评论 -
scala02
MapMap:k,v键值对,跟java里的Map差不多的意思。SortedMap和LinkedHashMapSortedMap 是排序的Map,按照Key进行排序LinkedHashMap 是一个可变的Map,同时它会记录数据插入顺序定义一个Map有以下几种方式:val map = Map("book"->10,"gun"->18,"ipad"->1000) va...原创 2019-11-18 21:59:04 · 92 阅读 · 0 评论 -
Spark学习03(Spark任务提交流程+宽窄依赖)
Spark任务提交流程3.25.25 RDD的函数传递主要是序列化的问题,对象在JVM中表示的方式是字节序列化的产生是为了分布式的程序,现在需要将这个类传递给另外一个机器,那么传递的过程中需要的是010101这样的字节,那么对面接收的字节如何获取,那么就需要使用序列化那么说一个场景: spark是一个分布式的计算框架,当从Driver端将数据传递到Executor的时候就需要进行序列化...原创 2019-11-10 20:27:35 · 147 阅读 · 0 评论 -
Spark学习04(自定义累加器+自定义排序+自定义分区)
一、自定义累加器(Accumulator)自定义累加器,可以任意累加不同类型的值,同时也可以在内部进行计算,或者逻辑编写,如果继承自定义累加器,那么需要实现内部的抽象方法,然后在每个抽象方法内部去累加变量值即可,主要是在全局性累加起到决定性作用。累加器作为spark的一个共享变量的实现,在用于累加计数计算计算指标的时候可以有效的减少网络的消耗累加器可以在每个节点上面进行Task的值,累加操作...原创 2019-11-10 20:22:39 · 461 阅读 · 0 评论 -
Spark学习02(Spark里的各种算子+RDD持久化-persist+RDD持久化-检查点+RDD共享变量)
一、各种算子的使用转换含义map(func)返回一个新的RDD,该RDD由每一个输入元素经过func函数转换后组成filter(func)返回一个新的RDD,该RDD由经过func函数计算后返回值为true的输入元素组成flatMap(func)类似于map,但是每一个输入元素可以被映射为0或多个输出元素(所以func应该返回一个序列,而不是单一元素)...原创 2019-11-09 22:36:15 · 401 阅读 · 0 评论 -
Spark学习01(Spark概念+RDD概念)
一、Spark是什么Spark是一种快速、通用、可扩展的大数据分析引擎。Spark生态系统已经发展成为一个包含多个子项目的集合,其中包含SparkSQL、Spark Streaming、GraphX、MLib、SparkR等子项目,Spark是基于内存计算的大数据并行计算框架。除了扩展了广泛使用的 MapReduce 计算模型,而且高效地支持更多计算模式,包括交互式查询和流处理。Spark 适用...原创 2019-11-09 21:24:11 · 251 阅读 · 0 评论 -
新scala基础
3.1. 了解Scala3.1.1 Scala来源 Scala名字由来:Scalable Language两个单词相结合;意大利语中 scala意为“梯子”或“楼梯”,蕴含“更佳的编程语言”。 Martin Odersky(马丁·奥德斯基)于2001年基于Funnel的工作开始设计Scala。Funnel是把函数式编程思想和Petri网相结合的一种编程语言。Martin Odersky先...原创 2019-11-09 16:25:11 · 663 阅读 · 0 评论 -
在elipse运行spark程序
spark2.1.0配置windows本地基于java语言的Eclipse开发环境https://blog.csdn.net/ASN_forever/article/details/84747317windows本地Eclipse开发spark程序打包到集群运行https://blog.csdn.net/ASN_forever/article/details/84771408...转载 2019-06-16 09:47:23 · 115 阅读 · 0 评论