![](https://img-blog.csdnimg.cn/20201014180756927.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
spark
文章平均质量分 90
小小小黄鸡
这个作者很懒,什么都没留下…
展开
-
PySpark 优雅的解决依赖包管理
平台所有的Spark任务都是采用Spark on yarn cluster的模式进行任务提交的,driver和executor随机分配在集群的各个节点,pySpark 由于python语言的性质,所以pySpark项目的依赖注定不能像java/scala项目那样把依赖打进jar包中轻松解决问题。所以本文主要目标就是解决pySpark在分布式的情况下,如何优雅的解决项目中的依赖问题,目前总结出如下三种办法供大家使用。原创 2023-11-06 01:03:55 · 900 阅读 · 2 评论 -
Spark 任务常见错误以及解决方案
Table or view not found: aaa.bbbThe column number of the existing table dmall_search.query_embedding_data_1(struct<>) doesn’t match the data schema(struct<user_id:string,dt:string,sku_list:array>);Cannot insert into table ddw_ware.purchase_d.原创 2020-09-23 17:50:55 · 15143 阅读 · 0 评论 -
二、用IDEA导入spark源码,并在本地运行standlone
上面我们编译了源码,然后我们接下来用idea将源码导入到开发工具,并在idea上启动standlone的master和slave,方便我们调试。1将项目导入到idea当中然后open as project即可。我看网上很多说,导入了,然后让maven自动导入依赖就行,但是不知道可能是我的网络问题,我遇到了很多问题,这里我分享出来,看是否能对你们有帮助。2遇到的问题1.导入到idea当中,s...原创 2020-04-26 00:39:03 · 1379 阅读 · 0 评论 -
一、Spark 2.4.0 源码编译
1.环境准备JAVAjava的话,直接安装个1.8就行了,配置好环境变量和JAVA_HOME,在cmd当中java一下,确认java安装好即可。scalascala安装和java类似,把Scala安装包解压,然后配置好Windows环境变量中的path当中还有SCALA_HOME,这里根据你想要阅读的源码,选择合适的scala版本,我用的是scala 2.11版本,然后scala ...原创 2020-04-21 18:36:09 · 619 阅读 · 0 评论 -
java.io.IOException: No FileSystem for scheme: hdfs
在用Scala写spark时候,用了sc操作了hdfs,出现了如下错误:java.io.IOException: No FileSystem for scheme: hdfs at org.apache.hadoop.fs.FileSystem.getFileSystemClass(FileSystem.java:2660) at org.apache.hadoop.fs....原创 2018-05-25 13:52:59 · 2558 阅读 · 1 评论 -
spark 2 查看历史job任务日志
1。编辑spark-env.shexport HADOOP_HOME=/usr/hdp/current/hadoop-client export HADOOP_CONF_DIR=/usr/hdp/current/hadoop-client/conf 这两个其实就是为了获得hadoop中的hdfs和yarn的配置文件。2。编辑spark-defaults.confspark.hi...原创 2018-05-28 14:14:00 · 3178 阅读 · 0 评论 -
java.lang.NoClassDefFoundError: Could not initialize class scala.tools.fusesource_embedded.jansi.int
我自己在windows下编译了一遍spark,成功了,全部都success了,美滋滋,然后我想在windows下启动下spark-shell: 结果,嗯?出错了?To adjust logging level use sc.setLogLevel(newLevel). For SparkR, use setLogLevel(newLevel).[ERROR] Terminal init...原创 2018-05-29 15:12:17 · 4116 阅读 · 0 评论 -
org.apache.spark.network.protocol.MessageWithHeader.touch(Ljava/lang/Object;)Lio/netty/util/Referenc
我使用IDEA进行spark sql调试的时候突然出现了这个问题,堆栈信息如下:java.lang.AbstractMethodError: org.apache.spark.network.protocol.MessageWithHeader.touch(Ljava/lang/Object;)Lio/netty/util/ReferenceCounted; at io.netty.util.R...原创 2018-09-28 18:11:25 · 2948 阅读 · 0 评论