MapReduce阶段常见错误及解决方案

最新推荐文章于 2022-11-14 09:23:47 发布

坏孩子充电自习室

最新推荐文章于 2022-11-14 09:23:47 发布

阅读量1.2k

点赞数 1

分类专栏： hadoop 大数据文章标签：大数据 hadoop mapreduce

本文链接：https://blog.csdn.net/qq_43668173/article/details/114875702

版权

大数据同时被 2 个专栏收录

75 篇文章 10 订阅

订阅专栏

hadoop

14 篇文章 4 订阅

订阅专栏

1）导包容易出错。尤其 Text 和 CombineTextInputFormat。 2）Mapper 中第一个输入的参数必须是 LongWritable 或者 NullWritable，不可以是 IntWritable.
报的错误是类型转换异常。

需要尚硅谷 八斗学院 奈学教育完整大数据资料和多家机构面试题的加威： Y17744650906 资料来之不易，不能接受小额有偿的勿扰，谢谢

3）java.lang.Exception: java.io.IOException: Illegal partition for 13926435656 (4)，说明 Partition
和 ReduceTask 个数没对上，调整 ReduceTask 个数。 4）如果分区数不是 1，但是 reducetask 为 1，是否执行分区过程。答案是：不执行分区过程。
因为在 MapTask 的源码中，执行分区的前提是先判断 ReduceNum 个数是否大于 1。不大于1 肯定不执行。
5）在 Windows 环境编译的 jar 包导入到 Linux 环境中运行，
hadoop jar wc.jar com.atguigu.mapreduce.wordcount.WordCountDriver /user/atguigu/
/user/atguigu/output
报如下错误：
Exception in thread “main” java.lang.UnsupportedClassVersionError:
com/atguigu/mapreduce/wordcount/WordCountDriver : Unsupported major.minor version 52.0
原因是 Windows 环境用的 jdk1.7，Linux 环境用的 jdk1.8。
解决方案：统一 jdk 版本。
6）缓存 pd.txt 小文件案例中，报找不到 pd.txt 文件
原因：大部分为路径书写错误。还有就是要检查 pd.txt.txt 的问题。还有个别电脑写相对路径
找不到 pd.txt，可以修改为绝对路径。 7）报类型转换异常。
通常都是在驱动函数中设置 Map 输出和最终输出时编写错误。
Map 输出的 key 如果没有排序，也会报类型转换异常。
8）集群中运行 wc.jar 时出现了无法获得输入文件。
原因：WordCount 案例的输入文件不能放用 HDFS 集群的根目录。
9）出现了如下相关异常
Exception in thread “main” java.lang.UnsatisfiedLinkError:
org.apache.hadoop.io.nativeio.NativeIO $W i n d o w s . a c c e s s 0 (L j a v a / l a n g / S t r i n g; I) Z a t o r g . a p a c h e . h a d o o p . i o . n a t i v e i o . N a t i v e I O$ Windows.access0(Native Method)
at org.apache.hadoop.io.nativeio.NativeIO$Windows.access(NativeIO.java:609)
at org.apache.hadoop.fs.FileUtil.canRead(FileUtil.java:977)
java.io.IOException: Could not locate executable null\bin\winutils.exe in the Hadoop binaries.
at org.apache.hadoop.util.Shell.getQualifiedBinPath(Shell.java:356)
at org.apache.hadoop.util.Shell.getWinUtilsPath(Shell.java:371)
at org.apache.hadoop.util.Shell.(Shell.java:364)
解决方案：拷贝 hadoop.dll 文件到 Windows 目录 C:\Windows\System32。个别同学电脑
还需要修改 Hadoop 源码。
方案二：创建如下包名，并将 NativeIO.java 拷贝到该包名下
10）自定义 Outputformat 时，注意在 RecordWirter 中的 close 方法必须关闭流资源。否则输出的文件内容中数据为空。
@Override
public void close(TaskAttemptContext context) throws IOException,
InterruptedException {
if (atguigufos != null) {
atguigufos.close();
}
if (otherfos != null) {
otherfos.close();
} }