![](https://img-blog.csdnimg.cn/20190927151124774.png?x-oss-process=image/resize,m_fixed,h_224,w_224)
Apache Spark
文章平均质量分 80
分享使用spark过程遇到的问题和解决方法、spark的源码和使用技巧
终回首
只是向上走,不必听自暴自弃者流的话。能做事的做事,能发声的发声。
有一分热,发一分光,就令萤火一般,也可以在黑暗里发一点光,不必等候炬火。
此后如竟没有炬火:我便是唯一的光。
展开
-
Apache Spark基础知识
我的spark学习笔记,基于Spark 2.4.0原创 2021-09-22 14:53:22 · 1323 阅读 · 1 评论 -
Apache Spark源码阅读环境搭建
文章目录1 下载源码2 导入项目3 新建文件4 Debug JavaWordCount遇到的报错1 未设置Master2 模块编译输出路径冲突版本win7jdk 1.8maven 3.6.3scala 2.11.81 下载源码# 下载源码git clone https://github.com/apache/spark.git# 切换到目标版本git checkout v2.4.02 导入项目#mermaid-svg-iY0oiuQsBRWr905j .label{font-fam原创 2021-08-26 10:52:08 · 469 阅读 · 0 评论 -
Apache Spark启动spark-sql报错
一、问题安装好spark后,执行spark-sql报错Exception in thread “main” java.lang.NoSuchFieldError: HIVE_STATS_JDBC_TIMEOUT命令./bin/spark-sql报错日志:2021-08-02 15:00:04,213 WARN util.NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin原创 2021-08-02 16:58:42 · 2606 阅读 · 3 评论 -
Apache Spark 编译、打包过程
目录1 下载源码版本:Ubuntu 20.04.2 LTSApache Maven 3.6.3JDK 1.8R 3.1.11 下载源码# 下载源码,推荐这样下载git clone https://github.com/apache/spark.git# 查看所有的tag,每个tag都是一个版本git tag# 切换到指定版本,这里我要编译的版本是2.4.0git checkout v2.4.0...原创 2021-08-02 09:13:11 · 856 阅读 · 3 评论 -
Spark 报错 Failed to delete: C:\Users\lvacz\AppData\Local\Temp\spark-*
一、问题在win10,local模式执行完spark任务后不论是否可以执行出结果,都会报错:Failed to delete: C:\Users\lvacz\AppData\Local\Temp\spark-7921735f-07fa-45db-875e-5a6440eb7e79部分日志:21/05/26 13:01:34 WARN SparkEnv: Exception while deleting Spark temp dir: C:\Users\lvacz\AppData\Local\Temp原创 2021-05-26 13:32:17 · 3758 阅读 · 5 评论 -
PySpark 读取 MongoDB 报错 Cursor not found / no longer available
一、问题PySpark 读取MongoDB报错:用PySpark读取的表记录数:47万条日志:Caused by: com.mongodb.MongoCursorNotFoundException: Query failed with error code -5 and error message 'Cursor 8312913963057096512 not found on server 192.168.12.15:27017' on server 192.168.12.15:27017原创 2021-05-25 17:47:34 · 723 阅读 · 0 评论 -
2.Apache Spark sql 一次80000并行度sql的优化经历
一、问题一位同事遇到的问题他调试spark sql任务时发现,任务并行度达到了恐怖的81835个,运行速度自然也快不到哪去。spark任务界面如下图所示二、解决1.排查过程先看了下入参的hive表下的文件个数su hdfshdfs dfs -count /user/hive/warehouse/database_name.db/table_name发现对应的文件数刚好是和spark任务并行度一样的81835这说明sparksql里的where的过滤没有生效又看了下where里的字段原创 2020-08-31 18:35:08 · 319 阅读 · 0 评论 -
1.Apache Spark 任务 执行报错 createDirectoryWithMode0
Apache Spark 任务 执行报错 createDirectoryWithMode0一、问题Eclipse local 模式执行spark任务报错日志:2019-01-07 17:36:26 [DEBUG]jobKeys: [MJ000000016]2019-01-07 17:36:26 [INFO]unparsed key: name2019-01-07 17:36:26 [INFO]unparsed key: id19/01/07 17:36:27 INFO spark.SparkC原创 2020-07-03 18:47:24 · 319 阅读 · 0 评论