Hadoop(二)答辩问题+答案





------------------------------------------------------------------------------------
--hadoop 常见问题:


1.压缩的几种方式?怎么设置的?
default gzip bzip2 lz0 snappy


使用怎么设置?
map端设置  reduce端
即使MapReduce应用使用非压缩的数据来读取和写入,我们也可以受益于压缩map阶段的中间输出。因为map作业的输出会被写入磁盘并通过网络传输到reducer节点,所以若使用LZO之类的快速压缩,能得到更好的性能,因为传输的数据量大大减少了。
Configuration conf = new Configuration();  
conf.setBoolean("mapred.compress.map.output", true);  
conf.setClass("mapred.map.output.compression.codec",GzipCodec.class, CompressionCodec.class); 
使用压缩有什么好处?


Reduce输出压缩包到hdfs
 打开Reduce输出压缩设置
 FileOutputFormat.setCompressOutput(job, true);
 设置使用的压缩算法
 FileOutputFormat.setOutputCompressorClass(job, GzipCodec.class);


2.分布式缓存(加载字典)?  怎么设置(过时方法和不过时方法)? 
3.hadoop 优化? 配置,参数,代码,数据(大量小文件合并大文件)
4.hadoop 什么是数据倾斜? 怎么解决? 


某一个task运行时间非常长。拖累整个程序运行时间


5.hadoop1.0和hadoop2.0有什么区别?
6.yarn的工作流程?
7.什么是 mapreduce?
combiner 是什么? 
partition
merge
8.job和task 的区别?
job
task:maptask 、reducetask


9.什么是shuffle?shuffle过程?


shuffle 的切片过程?  块  片   maptask之间的关系?
map端溢写 ?reduce端溢写?


setup?
cleanup?




10.map和reduce 端shuffle 分别发什么什么?
11.hadoop的调度器有几种?
FIFO(先进先出) 计算能力调度器 公平调度器


12.MapReduce 自带辅助类有哪些?
GenericOptionsParser   ToolRunner   Tool


13.MapReduce 数据类型有哪些?
14.分布式缓存 过时的写法是?现在的写法?
15.多文件输出类是? MultipleOutputs
16.Hadoop内置的输出文件格式有:
1)FileOutputFormat<K,V>  常用的父类;
2)TextOutputFormat<K,V> 默认输出字符串输出格式;
3)SequenceFileOutputFormat<K,V> 序列化文件输出;
4)MultipleOutputs<K,V> 可以把输出数据输送到不同的目录;
5) NullOutputFormat<K,V> 把输出输出到/dev/null中,即不输出任何数据,这个应用场景是在MR中进行了逻辑处理,同时输出文件已经在MR中进行了输出,而不需要在输出的情况;
6)LazyOutputFormat<K,V> 只有在调用write方法是才会产生文件,这样的话,如果没有调用write就不会产生空文件

17.MapReduce 分区使用的场景? 
数据归类(分类)、数据清洗、数据分析前期处理


18.join有几种? 实现思想分别是什么?
mapjoin :分布式缓存 
reducejoin:数据打标记


19.自定义数据类型实现那个接口? WritableComparable 或者 Writable
 --Writable
 write() 是把每个对象序列化到输出流。
 readFields()是把输入流字节反序列化。
 --WritableComparable
Java值对象的比较:重写 toString()、hashCode()、equals()方法


20.自定义分区实现那个接口? Partitioner
怎么设置?
21.自定义combiner继承那个类? Reducer
怎么设置?
  • 3
    点赞
  • 11
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值