大数据路上的bug坑

最新推荐文章于 2024-08-09 21:54:30 发布

gyl2016

最新推荐文章于 2024-08-09 21:54:30 发布

阅读量3.7k

点赞数 3

分类专栏： Bug 大数据文章标签： Bug 大数据 docker

本文链接：https://blog.csdn.net/not_guy/article/details/102872617

版权

这篇博客列举了在大数据处理过程中遇到的各种bug及其解决方法，包括编译错误、Spark编程问题、数据库配置错误、依赖冲突、Hadoop与Spark的使用问题、Scala语法错误、数据读写异常、Docker问题等。通过实例详细介绍了如何定位和修复这些问题，对大数据开发者具有参考价值。

摘要由CSDN通过智能技术生成

1、[ERROR] Failed to execute goal org.apache.maven.plugins:maven-compiler-plugin:3.5:compile (default-compile) on project easyml-manage: Compilation failure: Compilation failure: 
[ERROR] /D:/gyl/gitee/EasyMl/easyml-manage/src/main/java/com/trusfort/easyml/controller/interceptor/StartupListener.java:[3,40] 找不到符号
[ERROR]   符号:   类 JobService
[ERROR]   位置: 程序包 com.trusfort.easyml.service.task
[ERROR] /D:/gyl/gitee/EasyMl/easyml-manage/src/main/java/com/trusfort/easyml/controller/interceptor/StartupListener.java:[22,5] 找不到符号
[ERROR]   符号:   类 JobService
[ERROR]   位置: 类 com.trusfort.easyml.controller.interceptor.StartupListener
[ERROR] -> [Help 1]

解决方案：找到项目中JobService类的位置，右键该类，点击Recompile即可。

2、

这是因为scala程序的主类是这样声明的：
	Class Demo {
	def main(args : Array[String]) {
}
}
要把它改成这样：

3、下面的bug是因为没有写这句话：

Import org.apache.spark.sql.types._

4、spark中textFile读取txt文件时，txt文件内容行数与读取出来进行count后的行数与内容行数不一致。

（1）txt文件最后没有空行，总共有150行

（2）txt文件最后有空行，spark中textFile读取了151行

再看看数据，最后一个空行被toDF操作转换为[]

5、spark的dataframe中withColumn里函数不要写成这样col(“features”).apply(convertUDF)，会出问题（这里的apply的用法不同）

要写成下面这样就没问题：

6、Idea中JDK为1.8，还提示Diamond types are not supported at this language level。

解决方法：通过查看项目设置，发现project的java level 也是8。

然后继续检查其他模块如modules ，发现了问题所在

将其改为8就可以了。

7、一个非常简单的程序，出现了一个这样的错误：

解决办法：

（1）

网上说是hdfs目录下有相关的hadoop jar包，删掉就能用，试了一下，并没有用。
网上说是jar包冲突，删除本地guava库（这种解决方法是存在多个版本guava库的时候，而我这里只有一个版本，并且我也没有进行hbase查询，所以并没有用）。
真正的答案，导致错误的原因的确是guava包的问题。查看pom.xml文件，发现自己并没有写guava的依赖，所以应该是别的地方引用到了。然后去idea的依赖包管理界面external Libraries查看存在版本为19.0的guava包，导致这个错误的原因就是版本19.0的guava包和spark不兼容，于是在pom.xml文件中添加以下依赖：

<dependency>
    <groupId>com.google.guava</groupId>
    <artifactId>guava</artifactId>
    <version>15.0</version>
</dependency>

等依赖加载完后，能看到external Libraries里guava包的版本变为15.0，再次运行，发现不会报错了。

8、错误：

Unable to instantiate SparkSession with Hive support because Hive classes are not found.

解决方法：在pom.xml文件中添加依赖：

<dependency>
      <groupId>org.apache.spark</groupId>
      <artifactId>spark-hive_2.11</artifactId>
      <version>${spark.version}</version>
</dependency>

9、在对dataframe的每列计算统计特征时，报如下错误：