Hadoop（二）答辩问题+答案

最新推荐文章于 2024-05-01 14:53:41 发布

Yatpif

最新推荐文章于 2024-05-01 14:53:41 发布

阅读量2.4k

点赞数 3

分类专栏： Hadoop

本文链接：https://blog.csdn.net/Yatpif/article/details/79578983

版权

------------------------------------------------------------------------------------
--hadoop 常见问题：

1.压缩的几种方式？怎么设置的？
default gzip bzip2 lz0 snappy

使用怎么设置？
map端设置 reduce端
即使MapReduce应用使用非压缩的数据来读取和写入，我们也可以受益于压缩map阶段的中间输出。因为map作业的输出会被写入磁盘并通过网络传输到reducer节点，所以若使用LZO之类的快速压缩，能得到更好的性能，因为传输的数据量大大减少了。
Configuration conf = new Configuration();
conf.setBoolean("mapred.compress.map.output", true);
conf.setClass("mapred.map.output.compression.codec",GzipCodec.class, CompressionCodec.class);
使用压缩有什么好处？

Reduce输出压缩包到hdfs
打开Reduce输出压缩设置
FileOutputFormat.setCompressOutput(job, true);
设置使用的压缩算法
FileOutputFormat.setOutputCompressorClass(job, GzipCodec.class);

2.分布式缓存（加载字典）？怎么设置（过时方法和不过时方法）？
3.hadoop 优化？配置，参数，代码，数据（大量小文件合并大文件）
4.hadoop 什么是数据倾斜？怎么解决？

某一个task运行时间非常长。拖累整个程序运行时间

5.hadoop1.0和hadoop2.0有什么区别？
6.yarn的工作流程？
7.什么是 mapreduce？
combiner 是什么？
partition
merge
8.job和task 的区别？
job
task：maptask 、reducetask

9.什么是shuffle？shuffle过程？

shuffle 的切片过程？块片 maptask之间的关系？
map端溢写？reduce端溢写？

setup？
cleanup？

10.map和reduce 端shuffle 分别发什么什么？
11.hadoop的调度器有几种？
FIFO（先进先出）计算能力调度器公平调度器

12.MapReduce 自带辅助类有哪些？
GenericOptionsParser ToolRunner Tool

13.MapReduce 数据类型有哪些？
14.分布式缓存过时的写法是？现在的写法？
15.多文件输出类是？ MultipleOutputs
16.Hadoop内置的输出文件格式有：
1）FileOutputFormat<K,V> 常用的父类；
2）TextOutputFormat<K,V> 默认输出字符串输出格式；
3）SequenceFileOutputFormat<K,V> 序列化文件输出；
4）MultipleOutputs<K,V> 可以把输出数据输送到不同的目录；
5） NullOutputFormat<K,V> 把输出输出到/dev/null中，即不输出任何数据，这个应用场景是在MR中进行了逻辑处理，同时输出文件已经在MR中进行了输出，而不需要在输出的情况；
6）LazyOutputFormat<K,V> 只有在调用write方法是才会产生文件，这样的话，如果没有调用write就不会产生空文件

17.MapReduce 分区使用的场景？
数据归类(分类)、数据清洗、数据分析前期处理

18.join有几种？实现思想分别是什么？
mapjoin ：分布式缓存
reducejoin：数据打标记

19.自定义数据类型实现那个接口？ WritableComparable 或者 Writable
--Writable
write() 是把每个对象序列化到输出流。
readFields()是把输入流字节反序列化。
--WritableComparable
Java值对象的比较：重写 toString()、hashCode()、equals()方法

20.自定义分区实现那个接口？ Partitioner
怎么设置？
21.自定义combiner继承那个类？ Reducer
怎么设置？

最低0.47元/天解锁文章

Yatpif

关注

3
点赞
踩
11

收藏

觉得还不错? 一键收藏
0
评论
Hadoop（二）答辩问题+答案

--------------------------------------------------------------------------------------hadoop 常见问题：1.压缩的几种方式？怎么设置的？default gzip bzip2 lz0 snappy使用怎么设置？map端设置 reduce端即使MapReduce应用使用非压缩的数据来读取和写入，我们也可以受益...
复制链接

扫一扫

专栏目录