![](https://img-blog.csdnimg.cn/20201014180756780.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
Spark项目
spark,大数据,java,maven
人生路且修且行
大数据开发,一起探讨一起进步吧
展开
-
Spark 总结项目一---\r: 未找到命令警告 & 脚本jar执行报错Error:Unable to access jarfile
八、 linux脚本执行:\r: 未找到命令警告 & Error:Unable to access jarfile第一个\r: 未找到命令警告,是因为你所执行的脚本是在win环境下编辑后放在集群上执行的sh脚本,此时需要安装dos2unix执行原因分析:在windows下编写的shell.sh脚本,上传到服务器,存在多余的空格或换行,导致报错解决办法,安装dos2unix安装dos2unix yum install dos2unix使用dos2unix对脚本转换 dos2unix x原创 2020-10-16 14:57:13 · 966 阅读 · 0 评论 -
Spark 总结项目一---报错:bigger than spark.driver.maxResultSize
七、spark集群报错:bigger than spark.driver.maxResultSize难点报错代码20/09/15 15:21:32 ERROR scheduler.TaskSetManager: Total size of serialized results of 423 tasks (4.0 GB) is bigger than spark.driver.maxResultSize (4.0 GB)Exception in thread "main" org.apache.spa原创 2020-09-25 14:39:17 · 1933 阅读 · 0 评论 -
Spark 总结项目一---报错:GC overhead limit exceeded & thread task-result-getter-2
六、spark集群报错:GC overhead limit exceeded & thread task-result-getter-2难点:集群提交spark报错代码xxxxxx20/09/16 03:58:51 WARN scheduler.TaskSetManager: Stage 26 contains a task of very large size (1319 KB). The maximum recommended task size is 100 KB.20/09/1原创 2020-09-25 14:37:43 · 1004 阅读 · 0 评论 -
Spark 总结项目一---不同测试环境下项目不能执行
五、项目部署难点: 项目在实验室部署没有意外,顺利运行跑出结果,但是提交集团之后会有2大问题,这里记录一下1、操作hive数据库找不到表和数据库;2、使用SparkSession/SparkContext操作数据库报错序列化问题;解决方案:1、因为我的项目中是不需要连接hive的,代码是部署上去直接操作spark-shell的,所以没有使用到任何配置文件,所以无关乎hive和hdfs配置文件是否存在的问题; 在提交的过程中也是用过这样的方法,在submit提交的时候,添加 --files原创 2020-09-25 14:36:03 · 128 阅读 · 0 评论 -
Spark 总结项目一---IDEA-Scala打jar包报错、jar包太小问题
四、IDEA-Scala打jar包报错难点: 1、因为是第一次打包scala项目,以至于打出来的jar包没有scala的代码,所以没有添加对应的scala-tool打包的pom; 2、在项目打包的时候,IDEA会出现点击package后代码,没编译成功的情况,所以包还是原来的那个包并没有更新。 3、项目打包,出现版本IDEA和Win使用的scala版本不符错误,百度后指出是版本问题,但是查证版本后发现两者版本相同。解决方案: 1、导入pom文件中的以下scala-tool,打包问题自然解原创 2020-09-25 14:33:52 · 3172 阅读 · 0 评论 -
Scala 总结项目一---Spark连接不上Hive以及scala代码中bigInt类型报错问题
二、Scala连接Hive出现问题难点: 原项目是没有用到Hive的连接使用,所以要自己找连接的方法,我查看网上的连接方法,都是将Hive的配置文件 hive-site.xml 放在resoures下,然后配置连接conf,但是这套代码怎么着也连不上。解决方案: 和杨大哥沟通后,一直没有解决这个问题的方法,后来他说了一番话:你连接Hive也是为了操作表,你直接读取HDFS的文件路径可以转成DataFream然后进行SparkSql操作的啊。所以就转换了思路,不再去纠结如何连接Hive,选择直接将原创 2020-09-25 14:31:23 · 959 阅读 · 0 评论 -
Spark 总结项目一---相同数据源不同计算结果?
Scala 项目总结项目简介 接手项目是省Scala代码,需要转换成适合集团开发环境的代码,但是执行过程中遇到很多问题,以此记录。难点和解决方案一、相同数据源不同计算结果?难点: 首先拉了2批测试数据,但是在省环境下使用相同代码没有跑出结果,这也是我整个项目中最难受的地方,环境一样,代码一样为什么跑出来的结果不一样呢?也想着很多地方都没辙去解决这个问题。解决方案: 仔细分析了1天时间,发现是数据源的问题,但是就算和省环境对照相同的数据源但还是有少许数据依旧对不上,后来和省环境开发人员(原创 2020-09-25 14:25:05 · 567 阅读 · 0 评论