![](https://img-blog.csdnimg.cn/20201014180756922.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
Spark
万事于足下
这个作者很懒,什么都没留下…
展开
-
org.apache.spark.SparkException: A master URL must be set in your configuration
spark maven项目本地测试报错:org.apache.spark.SparkException: A master URL must be set in your configuration原因是没有指定master,spark不知道运行在什么上面,可以指定的有:local 本地单线程local[K] 本地多线程(指定K个内核)local[*] 本地多线程(指定所有可用内核)spark://HOST:PORT 连接到指定的 Spark standalone cluster master原创 2021-08-05 16:41:53 · 821 阅读 · 0 评论 -
spark本地测试报错:java.lang.NoClassDefFoundError: org/apache/spark/sql/SparkSessio
spark maven项目本地测试报错:Error: A JNI error has occurred, please check your installation and try againException in thread "main" java.lang.NoClassDefFoundError: org/apache/spark/sql/SparkSession原因是我在pom文件里引入的sparksql依赖加了<scope>provided</scope>标签原创 2021-08-05 16:24:01 · 2620 阅读 · 0 评论 -
Spark SQL部分简单使用详解
Spark SQL简介Spark SQL是Spark处理数据的一个模块,跟基本的Spark RDD的API不同,Spark SQL中提供的接口将会提供给Spark更多关于结构化数据和计算的信息。Spark SQL is not about SQLSpark SQL is about more than SQL从严格意义上来说sparkSQL不仅仅是SQL,更加准确的来说,他是超乎SQL的作...原创 2018-10-31 22:15:03 · 798 阅读 · 0 评论 -
spark调优的一些点
1.RDD的优化不要创建数据相同的RDD两次(多次)通常创建一个RDD(读取HDFS或者Hive中的文件),然后对这个RDD做一些算子操作,得到下一个RDD,如果同一个RDD创建了两遍(数据相同),就会从磁盘中读取两次,会浪费大量的时间和性能。RDD要尽可能的复用如果需要RDD中的部分值,不需要创建一个新的RDD,这样会多使用一次spark算子。比如需要tuple中的第二个值,可以用tu...原创 2018-10-24 17:14:45 · 224 阅读 · 0 评论 -
运行Spark SQL报The specified datastore driver ("com.mysql.jdbc.Driver") was not found in the CLASSPATH.
想启动spark-sql,结果报了Caused by: org.datanucleus.store.rdbms.connectionpool.DatastoreDriverNotFoundException: The specified datastore driver (“com.mysql.jdbc.Driver”) was not found in the CLASSPATH. Pleas...原创 2018-10-31 12:32:01 · 2751 阅读 · 1 评论 -
Spark执行流程
我们使用spark-submit提交一个Spark作业之后,这个作业就会启动一个对应的Driver进程。根据你使用的部署模式(deploy-mode)不同,Driver进程可能在本地启动,也可能在集群中某个工作节点上启动。Driver进程本身会根据我们设置的参数,占有一定数量的内存和CPU core。而Driver进程要做的第一件事情,就是向集群管理器(可以是Spark Standalone集群,...原创 2018-10-31 12:05:21 · 134 阅读 · 0 评论 -
Spark的cache缓存、存储级别、shuffle弊端与coalesce
官网:http://spark.apache.org/docs/latest/rdd-programming-guide.html#rdd-persistenceCachecache(缓存)和persist(持久化)的区别cache源码里面调用的是persist,persist里面传的是 存储化级别是内存cache lazy(spark core里面是lazy的,spark sql不是la...原创 2018-10-26 00:08:34 · 1097 阅读 · 0 评论 -
Spark中Java序列化和Kryo序列化结果比较
序列化序列化:Java序列化 Kryo序列化官网:http://spark.apache.org/docs/latest/tuning.html如果对象比较大,需要添加一个参数spark.kryoserializer.buffer(默认64k)(有点小需要调大一点)spark.kryoserializer.buffer.max(默认64m)(需要大于对象尝试序列化的数据的大小,并且小于2...原创 2018-10-25 23:08:31 · 1004 阅读 · 1 评论 -
启动Spark出现Operation category READ is not supported in state standby.
出现这个错误是spark读取standby状态的namenode导致的,出现原因是访问到了非active节点,只要在active节点启动就行了。如果还不行,先检查一下hosts文件,看看对应的ip和主机名有没有问题。然后检查Spark的配置文件,看看有没有写固定路径,如果写固定路径而那个节点是standby状态的话,就会出现这个错误。...原创 2018-10-23 12:31:11 · 3678 阅读 · 0 评论 -
Spark编译
Spark编译准备分布式计算框架1.首先安装好maven(3.3.9)和scala(2.11.8)2.安装 Git(建议安装一下,编译的时候可能用到,脚本里有提:sudo yum install git本文档spark版本:2.2.0建议不要用最后一个是0的,因为没有修复过bug,最后一位代表修改过bug的版本。官网building spark地址:http://spark.apac...原创 2018-10-07 18:52:27 · 235 阅读 · 0 评论 -
Spark on Yarn 详解(转)
1、spark on yarn有两种模式,一种是cluster模式,一种是client模式。a.执行命令“./spark-shell --master yarn”默认运行的是client模式。b.执行"./spark-shell --master yarn-client"或者"./spark-shell --master yarn --deploy-mode client"运行的也是clien...转载 2018-10-13 20:20:04 · 689 阅读 · 0 评论