spark
文章平均质量分 92
qq_duhai
好记性不如烂笔头...
展开
-
Spark设计原理(二)——数据缓存机制
所以原数据有9条记录,而shuffle write有8条记录,是因为先缓存了,再combine(),combine()后少了一条记录。如果map()操作后,先combine()的话,则mappedRDD的数据会丢失,不会缓存。所以是先缓存,再combine()。最近插入或者读取的分区数据放在表头,尾部的数据就是当前最久未被使用的,替换时直接删掉尾部就行。map(),cache(),shuffle前的combine()的执行顺序是怎么样的呢?2.spark难以获取缓存rdd的生命周期,难以精确的缓存替换。转载 2022-09-22 11:24:44 · 754 阅读 · 0 评论 -
Spark Streaming 对比 Structured Streaming
Spark StreamingSpark Streaming是spark最初的流处理框架,使用了微批的形式来进行流处理。提供了基于RDDs的Dstream API,每个时间间隔内的数据为一个RDD,源源不断对RDD进行处理来实现流计算。Structured StreamingSpark 2.X出来的流框架,采用了无界表的概念,流数据相当于往一个表上不断追加行。基于Spark SQL引擎实现,可以使用大多数Spark SQL的function。区别1、流模型Spark ..转载 2022-04-27 11:17:50 · 2288 阅读 · 0 评论 -
Spark中的checkpoint机制
一.Spark Core中的checkpointdef main(args: Array[String]) { val spark = SparkSession.builder().appName("Checkpoint Test").master("local[2]") .getOrCreate() val sc = spark.sparkContext sc.setCheckpointDir("checkpoint") val data = Array[(Int, Ch转载 2022-04-27 10:43:00 · 2613 阅读 · 0 评论 -
spark单机版安装
安装 Spark 之前需要先安装 Java,Scala 及 Python。一、安装javajava安装过程不在多说,可以在我其他文章中查找,下面附上java SE JDK下载链接http://www.oracle.com/technetwork/java/javase/downloads/index.html查看java版本1.2 安装 Scala[hadoop@cnbugs ~]$ wget https://downloads.lightbend.com/scala/.转载 2022-02-18 15:35:23 · 1852 阅读 · 0 评论 -
Spark分区方式详解
一、Spark数据分区方式简要 在Spark中,RDD(Resilient Distributed Dataset)是其最基本的抽象数据集,其中每个RDD是由若干个Partition组成。在Job运行期间,参与运算的Partition数据分布在多台机器的内存当中。这里可将RDD看成一个非常大的数组,其中Partition是数组中的每个元素,并且这些元素分布在多台机器中。...转载 2019-12-25 11:58:47 · 1379 阅读 · 0 评论 -
运行在YARN上的Spark程序的Executor,Cores和Memory的分配
在跑Spark-On-Yarn程序的时候,往往会对几个参数(num-executors,executor-cores,executor-memory等)理解很模糊,从而凭感觉地去指定值,这是不符合有追求程序员信仰的。因此,搞懂它们,很有必要。本文翻译自https://spoddutur.github.io/spark-notes/distribution_of_executors_cores_a...转载 2019-12-25 10:26:43 · 798 阅读 · 1 评论 -
使用Spark SQL读取Hive上的数据
Spark SQL主要目的是使得用户可以在Spark上使用SQL,其数据源既可以是RDD,也可以是外部的数据源(比如Parquet、Hive、Json等)。Spark SQL的其中一个分支就是Spark on Hive,也就是使用Hive中HQL的解析、逻辑执行计划翻译、执行计划优化等逻辑,可以近似认为仅将物理执行计划从MR作业替换成了Spark作业。本文就是来介绍如何通过Spark SQL来读取...转载 2019-12-23 10:07:51 · 6329 阅读 · 0 评论 -
java ssh(jsch)实战
1.maven环境jar包引入<dependency> <groupId>org.apache.spark</groupId> <artifactId>spark-core_2.11</artifactId> <version>2.3.4</version></dependency>&...原创 2019-12-12 14:40:58 · 808 阅读 · 0 评论 -
spark-submit 参数
1、基础:spark基本的提交语句:./bin/spark-submit \ --class <main-class> \ --master <master-url> \ --deploy-mode <deploy-mode> \ --conf <key>=<value> \ ... # other options <ap...原创 2019-12-11 15:47:22 · 3838 阅读 · 0 评论 -
jsch教程(用java ssh 提交spark yarn任务)
jsch 是ssh2的一个纯Java实现。它允许你连接到一个sshd 服务器,使用端口转发,X11转发,文件传输等等。你可以将它的功能集成到你自己的 程序中。同时该项目也提供一个J2ME版本用来在手机上直连SSHD服务器。一般连接到服务器有两种方式:1、通过用户名和密码连接,缺点(出于安全需要,一般服务器的密码会定期修改,程序部署后将不得不经常更新配置文件中的密 码。)2、通过...原创 2019-12-11 09:05:11 · 783 阅读 · 0 评论 -
spark各个版本下载
http://www.apache.org/dist/spark原创 2019-12-09 14:17:08 · 6279 阅读 · 0 评论 -
关于《Spark快速大数据分析》运行例子遇到的报错及解决
一、描述在书中第二章,有一个例子,构建完之后,运行:${SPARK_HOME}/bin/spark-submit --class com.oreilly.learningsparkexamples.mini.java.WordCount ./target/learning-spark-mini-example-0.0.1.jar ./README.md ./wordcouts如果用的...转载 2019-12-09 09:46:38 · 1191 阅读 · 0 评论 -
Spark on Yarn 单机环境搭建
前面已经安装好hadoop和yarn:https://blog.csdn.net/qq_16504067/article/details/103401096jdk1.8安装包: 官方下载:http://www.oracle.com/technetwork/java/javase/downloads/jdk8-downloads-2133151.html选择linux_x64。 scal...原创 2019-12-09 09:03:43 · 924 阅读 · 0 评论 -
Spark on Yarn 环境搭建
本文记录Spark on Yarn的集群环境的搭建,并通过通过SparkPi实例程序来测试集群。在搭建本集群之前必须先搭建好Hadoop集群,搭建Hadoop集群请参考:Hadoop集群环境搭建(三台).主要内容:安装Spark 运行SparkPi1.安装Spark1.1.下载https://spark.apache.org/downloads.html下载...转载 2019-12-05 16:02:03 · 538 阅读 · 0 评论 -
Spark Yarn 提交作业
初学Spark时,部署的是Standalone模式(集成了HA),写的测试程序一般创建上下文时如下:此处master设置为管理节点的集群地址(spark webui上显示的地址) 。之后将测试代码打包成jar包,上传到服务器,使用spark-submit提交作业。提交命令:spark-submit --master spark://s44:7077 --name MyWo...转载 2019-12-05 15:11:52 · 237 阅读 · 0 评论 -
Hadoop HDFS 搭建 Hadoop YARN 搭建
Hadoop HDFS 搭建https://blog.csdn.net/qq_24505127/article/details/80397571Hadoop YARN 搭建https://blog.csdn.net/qq_24505127/article/details/80397604Hadoop环境搭建(单机)https://www.cnblogs.com/xuwujing...原创 2019-12-05 11:10:04 · 330 阅读 · 0 评论 -
Spark on yarn模式
1.配置安装Hadoop:需要安装HDFS模块和YARN模块,spark运行时要把jar包放到HDFS上。安装Spark:不需要启动Spark集群,在client节点配置中spark-env.sh添加JDK和HADOOP_CONF_DIR目录,Spark程序将作为yarn的客户端用户提交任务。export JAVA_HOME=/usr/local/jdk1.8.0_161expo...转载 2019-12-05 10:46:19 · 189 阅读 · 0 评论 -
Spark(五)Spark任务提交方式和执行流程
一、Spark中的基本概念(1)Application:表示你的应用程序(2)Driver:表示main()函数,创建SparkContext。由SparkContext负责与ClusterManager通信,进行资源的申请,任务的分配和监控等。程序执行完毕后关闭SparkContext(3)Executor:某个Application运行在Worker节点上的一个进程,该进程负责运行...转载 2019-12-04 17:26:10 · 293 阅读 · 0 评论 -
yarn-cluster和yarn-client模式剖析
之前以standalone模式剖析过spark程序的执行流程,这里来剖析下其他两种模式(yarn-cluster和yarn-client)的区别。一般yarn-client用于测试环境调试程序;yarn-cluster用于生产环境。看完下面的剖析就明白为什么。一、yarn-cluster与standalone模式不同,yarn-cluster是基于yarn集群,yarn集群上有Reso...转载 2019-12-04 15:54:19 · 224 阅读 · 0 评论 -
Spark2.0 Java实现将Hive运算结果保存到数据库
package com.gm.hive.SparkHive; import org.apache.spark.sql.Dataset;import org.apache.spark.sql.Row;import org.apache.spark.sql.SaveMode;import org.apache.spark.sql.SparkSession;import java.util...转载 2019-11-15 16:28:22 · 172 阅读 · 0 评论 -
将java RDD结果写入Hive表中
情况一:只需插入一列JavaRDD<String> titleParticiple = ....;/** * 将分词结果保存到Hive表,供数据探查使用 * */ HiveContext hiveCtx = new HiveContext(jsc); SQLContext sqlCtx = new SQLContext(jsc);/** *...转载 2019-11-15 16:16:34 · 2081 阅读 · 0 评论 -
spark shuffle特点和导致shuffle的算子
Spark Shuffle操作的两个特点 第一个特点, 在Spark早期版本中,那个bucket缓存是非常非常重要的,因为需要将一个ShuffleMapTask所有的数据都写入内存缓存之后,才会刷新到磁盘。但是这就有一个问题,如果map side数据过多,那么很容易造成内存溢出。所以spark在新版本中,优化了,默认那个内存缓存是100kb,然后呢,写入一点数据达到了刷新到磁盘的...转载 2019-11-12 09:37:52 · 2112 阅读 · 1 评论 -
spark默认端口
50070:HDFSwebUI的端口号8485:journalnode默认的端口号9000:非高可用访问数rpc端口8020:高可用访问数据rpc8088:yarn的webUI的端口号8080:master的webUI,Tomcat的端口号 sparkwebUI的端口号7077:spark基于standalone的提交任务的端口号8081:worker的webUI的端...原创 2019-11-08 15:49:14 · 1724 阅读 · 0 评论 -
spark-运行 jar 包
spark jar 本非方式运行首先我们通过帮助命令来看spark 如何提交执行jar包spark-submit --helpspark-submit 详细参数说明--master master 的地址,提交任务到哪里执行,例如 spark://host:port, yarn, local--deploy-mode 在本地 (client) 启动 dr...转载 2019-11-08 15:34:12 · 7777 阅读 · 0 评论 -
Window7 上跑 Spark 单机模式
一、下载Spark下载地址:http://www.eu.apache.org/dist/spark/spark-1.5.2/spark-1.5.2-bin-hadoop2.4.tgz我这里测试这个地址最快,或者你可以去Spark的下载网站去试试别的链接:http://spark.apache.org/downloads.html二、解压Spark安装包例如我解压到了 E盘根目录,你可...转载 2019-11-08 15:26:27 · 110 阅读 · 0 评论 -
【spark】常用转换操作:keys 、values、mapValues、map、flatMap、flatMapValues
1.keys功能: 返回所有键值对的key示例 1 2 3 4 val list = List("hadoop","spark","hive","spark") val rdd = sc.parallelize(list) val pairRdd = rdd.map(x => (x,1)) pair...转载 2019-06-27 11:54:16 · 1127 阅读 · 0 评论 -
Spark部分:按照分区插入数据(map,mappartitions和foreachPartition)
package com.bjsxt.spark; import java.util.ArrayList;import java.util.Arrays;import java.util.Iterator;import java.util.List; import org.apache.spark.api.java.function.Function;import org.apac...转载 2019-06-25 16:20:13 · 857 阅读 · 0 评论 -
【菜鸟系列】spark常用算子总结(java)--groupByKey,reduceByKey
https://blog.csdn.net/Java_Soldier/article/details/80582336reduceByKey样例SparkConf conf = new SparkConf().setAppName("jiangtao_demo").setMaster("local"); JavaSparkContext jsc = new JavaSpark...转载 2019-06-25 15:47:05 · 1046 阅读 · 0 评论