Hadoop 使用常见问题

最近一个月刚开始接触Hadoop,这两天在搞排序的时候遇到了点问题,终于解决了,
所以想着可以将其记录下来,防止以后忘记,还可以为我国的社会主义建设做贡献。本篇文
章的内容主要就是在Hadoop使用中遇到的各种问题以及解决方法。

问题1: Can’t read partitions file
背景:
Hadoop进行全局排序时有一个非常高效的算法–terasort,这种方法充分利用Hadoop本身在reduce阶段shuffle过程中对key的排序,但默认的shuffle过程只能保证每个reduce任务内的key是有序的,无法保证全局有序,因为键值在partition时是通过hash来分配给不同reduce任务的,为了实现全局的排序,一种策略是根据键值大小进行partition,使得reduce任务间是有序的,但是在为reducer分配任务前是无法得知键值的分布情况容易造成分配给每个reducer的任务量不均匀,效率低下。terasort就是通过提前抽样获取键值的分布,生成一个partitions file,map会根据这个partitions file建立trie数,从而更为有效的partition。
问题:
进行terasort全局排序时出现java.lang.IllegalArgumentException: Can’t read partitions file这样的错误,但在HDFS中是可以找到partition文件的。
原因:
在指定reduce task数量时指定的过多,键值的个数小于task数量,导致partition文件中有标识不同reducer的键值相同(还是鸽巢原理呢)。
解决方法
减少reduce task的数量到合适的数量,至少是(抽到样本键值数-1)个。

问题2:Wrong FS & 日志无法收集(不能查看)
背景:
Hadoop可以有不同的集群(集群之间性能,配置会有不同),另外Hadoop的计算和数据资源是分离的,在某些需求下,更换了集群的计算资源。
原因:
在配置中只更换了计算资源的集群,使用的确实原来集群的数据节点。
解决方法:
更改配置,使用同一集群下的计算资源和数据资源。
问题3:运行Hadoop程序使用通用配置选项不生效
背景:
在运行Hadoop程序是有一些通用性的选项的比如设置队列优先级等。
问题:
输入对应的命令但是不生效
原因:
代码有误。
解决方案:
要使用通用性的配置选项,在代码上有两个地方需呀注意,一是在类的定义时需要继承Configured类并实现Tool,例如:
public class NGramCounter extends Configured implements Tool
二是在实现run函数时对参数的解析时要这样:
public int run(String[] args) throws Exception {
// TODO Auto-generated method stub
Configuration conf = getConf();
String[] otherArgs = new GenericOptionsParser(conf, args).getRemainingArgs();
conf获取的时候不要直接new,而是应该使用继承自Configured的getConf方法获得,另外还需要使用GenericOptionsParser类对通用的参数进行解析。
问题4:运行Hadoop程序时类型不匹配
背景:
Hadoop 程序需要运行时需要设定mapper和reducer的input和output 的key value类型。
问题:
直接上段代码说明吧:
使用了这样的mapper:
public static class RawGramCountMapper extends
Mapper<BytesWritable, BytesWritable, IntWritable, IntWritable> {
public void map(BytesWritable key, BytesWritable value, Context context){
context.write(new IntWritable(1),new IntWritable(1));
}
}

使用了这样的reducer:
public static class RawGramCountReducer extends
Reducer<IntWritable, IntWritable, Text, IntWritable> {}

在使用启动任务的代码中出现了这样的语句:
job.setOutputKeyClass(Text.class);
job.setOutputValueClass(IntWritable.class);

运行时会报出类似这样的错误:Type mismatch in key from map: expected org.apache.hadoop.io.Text, received org.apache.hadoop.io.IntWritable
原因:
设置有误,mapper 和 reducer的output key 和value的类型必须通过显示的设置来确定,仅仅通过泛型的类型指定是不可取的,而
job.setOutputKeyClass(Text.class);
job.setOutputValueClass(IntWritable.class);
对mapper和reducer都生效。
解决方案:
如果mapper 和 reducer 的ouput key和value的类型是相同的,那么可以通过
job.setOutputKeyClass(Text.class);
job.setOutputValueClass(IntWritable.class);
来设定。
如果mapper 和 reducer 的ouput key和value的类型是不相同的,那么需要通过
job.setOutputKeyClass(Text.class);
job.setOutputValueClass(IntWritable.class);
设定两者的kv类型。和
job.setMapOutputKeyClass(IntWritable.class);
job.setMapOutputValueClass(IntWritable.class);
单独设定mapper的output kv类型。
先发表,待续~~

  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
使用Hadoop时,可能会遇到以下一些常见问题: 1. Hadoop集群的配置和部署:在构建Hadoop集群时,可能会遇到配置和部署问题,例如节点的添加、网络设置和安全性配置等。 2. 数据丢失或损坏:在数据处理过程中,可能会发生数据丢失或损坏的情况。这可能是由于硬件故障、网络问题或错误的数据处理操作引起的。 3. 任务调度和资源管理:Hadoop使用了YARN(Yet Another Resource Negotiator)来进行任务调度和资源管理。在配置和使用YARN时,可能会遇到问题,例如任务队列管理、资源限制和优先级等。 4. 性能调优:在处理大规模数据时,性能问题可能成为一个挑战。可能需要进行性能调优,例如调整数据块大小、优化数据压缩和并行度设置等。 5. 安全性和权限控制:Hadoop提供了一些安全性和权限控制机制,如Kerberos认证和访问控制列表(ACL)。在配置和使用这些机制时,可能会遇到问题,例如配置错误、权限不足或用户认证失败等。 6. 日志和故障排查:当Hadoop集群发生故障或出现错误时,查看日志文件是一种常见的排查方法。但是,理解和分析日志可能会具有挑战性,特别是在大规模集群和复杂的应用程序中。 这些是使用Hadoop时常见的问题,但每个问题的具体解决方案可能会因环境和应用场景而异。为了解决这些问题,可以查阅Hadoop官方文档、在线论坛或咨询专业人士的意见。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值