------------------------------------------------------------------------------------
--hadoop 常见问题:
1.压缩的几种方式?怎么设置的?
default gzip bzip2 lz0 snappy
使用怎么设置?
map端设置 reduce端
即使MapReduce应用使用非压缩的数据来读取和写入,我们也可以受益于压缩map阶段的中间输出。因为map作业的输出会被写入磁盘并通过网络传输到reducer节点,所以若使用LZO之类的快速压缩,能得到更好的性能,因为传输的数据量大大减少了。
Configuration conf = new Configuration();
conf.setBoolean("mapred.compress.map.output", true);
conf.setClass("mapred.map.output.compression.codec",GzipCodec.class, CompressionCodec.class);
使用压缩有什么好处?
Reduce输出压缩包到hdfs
打开Reduce输出压缩设置
FileOutputFormat.setCompressOutput(job, true);
设置使用的压缩算法
FileOutputFormat.setOutputCompressorClass(job, GzipCodec.class);
2.分布式缓存(加载字典)? 怎么设置(过时方法和不过时方法)?
3.hadoop 优化? 配置,参数,代码,数据(大量小文件合并大文件)
4.hadoop 什么是数据倾斜? 怎么解决?
某一个task运行时间非常长。拖累整个程序运行时间
5.hadoop1.0和hadoop2.0有什么区别?
6.yarn的工作流程?
7.什么是 mapreduce?
combiner 是什么?
partition
merge
8.job和task 的区别?
job
task:maptask 、reducetask
9.什么是shuffle?shuffle过程?
shuffle 的切片过程? 块 片 maptask之间的关系?
map端溢写 ?reduce端溢写?
setup?
cleanup?
10.map和reduce 端shuffle 分别发什么什么?
11.hadoop的调度器有几种?
FIFO(先进先出) 计算能力调度器 公平调度器
12.MapReduce 自带辅助类有哪些?
GenericOptionsParser ToolRunner Tool
13.MapReduce 数据类型有哪些?
14.分布式缓存 过时的写法是?现在的写法?
15.多文件输出类是? MultipleOutputs
16.Hadoop内置的输出文件格式有:
1)FileOutputFormat<K,V> 常用的父类;
2)TextOutputFormat<K,V> 默认输出字符串输出格式;
3)SequenceFileOutputFormat<K,V> 序列化文件输出;
4)MultipleOutputs<K,V> 可以把输出数据输送到不同的目录;
5) NullOutputFormat<K,V> 把输出输出到/dev/null中,即不输出任何数据,这个应用场景是在MR中进行了逻辑处理,同时输出文件已经在MR中进行了输出,而不需要在输出的情况;
6)LazyOutputFormat<K,V> 只有在调用write方法是才会产生文件,这样的话,如果没有调用write就不会产生空文件
17.MapReduce 分区使用的场景?
数据归类(分类)、数据清洗、数据分析前期处理
18.join有几种? 实现思想分别是什么?
mapjoin :分布式缓存
reducejoin:数据打标记
19.自定义数据类型实现那个接口? WritableComparable 或者 Writable
--Writable
write() 是把每个对象序列化到输出流。
readFields()是把输入流字节反序列化。
--WritableComparable
Java值对象的比较:重写 toString()、hashCode()、equals()方法
20.自定义分区实现那个接口? Partitioner
怎么设置?
21.自定义combiner继承那个类? Reducer
怎么设置?