关于大数据相关的问答汇总，每天持续更新中~

最新推荐文章于 2025-02-10 15:44:48 发布

qq_43084314

最新推荐文章于 2025-02-10 15:44:48 发布

阅读量1.3k

点赞数

本文链接：https://blog.csdn.net/qq_43084314/article/details/82151708

版权

本文详细介绍了Hadoop的安装配置步骤，包括root账户登录、IP修改、主机名配置、SSH免密登陆、防火墙关闭、JDK安装、Hadoop安装包解压与配置、环境变量设置、namenode格式化以及启动流程。此外，文章还讨论了Hadoop集群中的主要进程及其作用，例如namenode、secondnamenode、datanode、jobtracker和tasktracker。接着，阐述了MapReduce的运行原理，包括map、shuffle和reduce的详细过程。文中还涵盖了Hadoop的内部表和外部表的区别，以及mapreduce中combiner和partitioner的区别。最后，文章包含了Hadoop相关面试问题的解答，涉及项目经验、技术知识、集群搭建挑战、数据倾斜问题及解决方案等。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

重点内容
一 .简述如何安装配置apache 的一个开源的hadoop

使用root账户登陆

2.修改ip

3.修改host主机名

4.配置ssh 免密登陆

5.关闭防火墙

6.安装ＪＤＫ

7.解压hadoop安装包

8.配置hadoop的核心配置文件 hadoop-env.sh? core-site.xml? mapred-site.xml yarn-site.xml hdfs-site.xml

9.配置hadoop 的环境变量

10 .格式化hadoop namenode-format

启动节点start-all.sh

二 .列出hadoop 集群中的都分别需要启动哪些进程它们分别是作用是什么？

namenode :负责管理HDFS中文件的元数据，响应客户端请求，管理datanode 上文件block的均衡，维持副本数量

secondname: 主要负责checkpoint 操作也可以做冷备对一定范围内数据做快照性备份

datanode : 存储数据块负责客户对数据块的io请求

jobtracker :管路任务，并将任务分配给tasktracker

tasktracker: 执行jobtrancker 分配的任务

resource manager? nodemanager journalnode? zookeeper? zkfc

三简述mapreduce的运行原理

先将文件进行分割后，进行map操作，后面进行shuffle操作，分为map端shuffle和reduce端shuffle，map输出结果放在缓冲区，当缓存区到达一定阈值时，将其中数据spill（也就是溢写）到磁盘，然后进行partition, sort, combine操作，这样多次spill后，磁盘上就会有多个文件，merge操作将这些文件合并成一个文件，reduce端shuffle从map节点拉取数据文件，如果在内存中放得下，就直接放在内存中，每个map对应一块数据，当内存占用量达到一定程度时，启动内存时merge，把内存中的数据输出到磁盘的一个文件上。如果在内存中放不下的话，就直接写到磁盘上。一个map数据对应一个文件，当文件数量达到一定阀值时，开始启动磁盘文件merge，把这些文件合并到一个文件中。最后，把内存中的文件和磁盘上的文件进行全局merge，形成一个最终端文件，做为reduce的输入文件。当然merge过程中会进行sort,combine操作。

四 hive中内部外部表的区别

内部表：数据存储在Hive的数据仓库目录下，删除表时，除了删除元数据，还会删除实际表文件。

外部表：数据并不存储在Hive的数据仓库目录下，删除表时，只是删除元数据，并不删除实际表文件。

五 mapreduce中的combiner 和partition的区别

? Combiner就是在map端先进行一次reduce操作，减少map端到reduce端的数据传输量，节省网络带宽，提高执行效率。

Partition就是将map输出按key分区，送到不同的reduce上去并行执行，提高效率。

六面试问答：

1、讲项目经验：

问的很细，给纸，笔，让画公司hadoop的项目架构,说几条业务数据，然后经过平台后，出来成什么样子；

2、java方面：

io输入输出流里有哪些常用的类，还有webService,线程相关的知识；

3、linux：

问到jps命令，kill命令，问awk,sed是干什么用的、还有hadoop的一些常用命令；

4、hadoop：

讲hadoop1中map,shuffle,reduce的过程，其中问到了map端和reduce端溢写的细节；

也问了一些，外部表，还有就是hive的物理模型跟传统数据库的不同。

七新手问答：

1、工资多少，工作几年了,有java基础吗,大学学什么

** 13k,做javaweb将近三年，2014年4月开始学习hadoop,现在已经工作一个多月了，有java基础，大学是计算机系

2、flume,kafka,storm是怎么学的，有没有做优化

** 看官方文档，先搭环境，然后用java写代码调用它们的接口，熟悉api不过，如果有视频资源的话，还是建议尽量看一下

3、现在用hadoop1还是2

**hadoop2

4、面试时说做hadoop多久了

** 我说的将近两年，面试时一定要说有hadoop经验

5、storm,python之前都会吗，还是进公司后自学的

**这些都是到公司后，自学的

6、你用的hadoop是收费的还是免费的

**目前是用的是免费的

7、自己搭过集群吗，一开始压力大吗

**集群是自己搭的，压力很大，不过车到山前必有路

8、广告作弊用mapreduce计算吗

** 用的storm，实时处理

9、普通局域网的机子可以搭建么

** 可以，当时我先在自己机器上测试，用的自己电脑上的虚拟机，后来公司买的去服务器

10、flume的知识有什么高深的东西

**我觉得没有什么东西是高深，只是我们没有涉入，只要用的多，多测试，它只是一个软件而已

11、你看源码吗，现在？

**会看源码，但是我觉得不要死扣在源码，我们主要是应用，如果自己有精力，也可以分块研究一下

12、公司现在有多少台服务器？

**有10台，我用其中四台做了storm,kafka,flume，另外四台做hadoop ,hive,还有两台用做机器学习用

13、没有java能做hadoop么

**不能吧，必须要会java

14、面试时会不会让默写代码

**没有遇到过（不同的公司不一样）

15、自己学，遇到问题都自己解决吗？

**目前遇到的问题，自己都能解决，如果不能的话，会救助同事吧

16、你们数据库用hbase?

**目前还没用，现在主要用mongdb,mysql,redis（hive、hbase的公司不少）

17、大专不好找工作吗？

也没有，我有个同事，也是大专，但是她找工作时说自己是本科（因为那职位要求本科），后来面试通过后，又给人事打电话说，我其实是大专，但是为了得到这次面试机会，我说自己是本科。。。后来人事说这个没关系。。。那个公司就是×××，她现在已经在那里上班了（这个属于特殊情况，如果比较严的公司，拒绝的可能性是非常大的，除非实力强劲，大专找到工作是很正常的事情，

**这里只是公供大家参考，希望去其糟粕，取其精华

18、现在hadoop什么水平了，基本的框架都会用的程度吗？

** 是的，我现在基本框架都会用，都搭集群环境，包括调用的api也都很熟悉

19、hadoop方向不错我现在15k，考虑要不要转

**我觉得这个要看你现在的行业以后的发展，如果有瓶颈，我觉得可以考虑转

20、英文杂样，能看懂官方文档吗？

**看文档的问题不大，写和说还不行，我正在做计划，看怎么学

21、你对自己在it行业啥想法呢，会一直在大数据这方面吗？

**目前我的想法是以后准备做数据挖掘，机器学习工程师

22、python要掌握到什么程度？

**在互联网方面，python,shell都是少不了的工具，我觉得我们主要精通一门，python的话，能看懂，能修改别人代码就行。现在的话，我还是比较推崇python，比shell强大，比java简洁。

**23、3周是自己单独学，还是工作之外学？

** 学习的过程，我一般都是晚上学，很痴迷，也可能是因为想赶紧转，脱离当前公司的苦海，哈哈

24、人家说集群什么的都没有搭建，这样的工作你当时没犹豫就接了吗，这么有自信？

**当时我也很担心，不过进去的时候，也有说，让我别压力太大，如果有问题，他们会想办法找人帮我解决，所以我就豁出去

25、shell掌握到什么程度是，工作用到的难不难

**我觉得shell 的话，主要把awk,sed学好，当然基础也要学好，比如网络配置、基本操作

八宽表你什么理解？

宽表指的是行少列多，如果一行数据量过大，可能造成一个HFile放不下。但宽表有行级原子性的优势。高表指的是行多列少，Hbase只能按行分片，因此高表更有优势。具体还是要根据业务场景综合考虑。

2）最好不要定义过多的ColumnFamily，一般来说，一张表一个ColumnFamily就好。因为Flushing和压缩是基于Region的。当一个ColumnFamily所存储的数据达到Flushing阀值时，该表中的其他ColumnFamily可能没存储多少数据，也要跟着进行Flushing操作，这将会带来很多不必要的IO消耗。ColumFamily越多，对性能的影响也就越大。此外，同一个表中不同的ColumnFamily存储的数据量差别也不要太大，不然有些数据会分散在太多的Region上，会影响检索效率。

九 Hbase rowkey设计原则

总的原则：综合考虑业务场景，及hbase的存储访问特点。

几个简单的原则：rowkey唯一，长度一致，能短则短。

然后考虑几个问题：

1）读取方便？

i. 尽可能的把检索条件存储于rowkey中。

ii. 同时访问的数据，rowkey尽量连接，即可以利用scan指定start和end rowkey直接访问。

2）提高写效率？

i. 评估业务场景，根据数据分布情况进行预分区，提高并发度。

ii. 有些情况下，可以加入散列值，使写分散到各regionserver，避免单点过载。

十 . mapreduce?的?join?方法有哪些？

http://database.51cto.com/art/201410/454277.htm(里面的例子很好理解)

https://my.oschina.net/leejun2005/blog/95186

如有两个文件File1和File2，文件内容如下：

File1: （学生编码，学生名字，性别）

zs 张三男

…

File2: （学生编码，选修课程，得分）

zs c1 80

zs c2 90

…

1） reduce join

适用于两张表都是大表

在map阶段，输出，在value中标记数据是来自File1和File2，在reduce阶段，将key的value按照来源是File1还是File2分成两组，做集合乘积。

缺点：

i.? map阶段没有对数据瘦身，shuffle的网络传输和排序性能很低。

ii.? reduce端对2个集合做乘积计算，很耗内存，容易导致OOM。

示例：

在map阶段：map函数同时读入两个文件File1和File2，对每一条数据打一个标签，用来区分数据来源于File1还是File2。连接字段做为key，其他字段及标志做为value。

如

在shuffle阶段:? 会按key分组，连接字段为key，各个map的的输出结果形成list做为value。

如

在reduce阶段:? 对同一个key，按标志位，将value分成左表和右表，然后进行笛卡尔连接输出。

如左表 = { “张三男” }

右表 = {? “c1 80”,? “c2 90”? }

然后两个for循环实现笛卡尔连接输出：

张三男 c1 80

张三男 c2 90

2） map join

适合一张小表，一张大表。

小数据文件全部加载到内存，大数据文件作为map的输入文件，在内存中和小数据文件进行连接，按key分组输出。减小shuffle阶段的排序和网络传输消耗。

示例：

假设File1为小表，File2为大表。

i.? 将小表文件File1放到该作业的DistributedCache中。

ii.? 在setup函数中，将File1从DistributedCache中读入内存中，如hash map中。如：

{zs, “张三男”}

iii.? 在map函数中，扫描File2，判断File2的key在不在hasp map中，如果在，直接输出（

key + hash map中该key的value +? File2中其他字段）如：

zm 张三男? c1 80

3）semi join

reduce join的一个变种。将File1中参与join的key单独抽取出来，存入File3。通过Distributed Cache分发到相关节点，然后将其取出放到内存中，如hash set中。在map阶段扫描连接表，将key不在set中的记录过滤掉，将那些参与join的记录打上标签通过shuffle传输到reduce端进行操作，后面的过程和reduce join是一样的。

4）reduce join + boomfilter

如果semi join 抽取出来的key在内存中还放不下，则考虑将key放入boomfilter。通过boomfilter过滤掉不需要参与join的记录，将那些参与join的记录打上标签通过shuffle传输到reduce端进行操作，后面的过程和reduce join是一样的。boomfilter是通过二进制位（0101这些）记录数据，所以占用空间比较小。

十一 MR数据倾斜原因和解决方案

数据倾斜就是数据key分布不均匀，导致分发到不同的reduce上，个别reduce任务特别重，导致其他reduce都完成，而这些个别的reduce迟迟不完成的情况。

http://blog.sina.com.cn/s/blog_9402246001013kxf.html

http://www.cnblogs.com/datacloud/p/3601624.html

原因如下：

1） key分布不均匀

2）业务数据本身的特征

解决方案：

假设A、B两张表关联，A中存在数据倾斜的key

1）先对A表进行采样，将造成数据倾斜的key的记录存入一个临时表tmp1。

2）一般情况下，造成数据倾斜的key不会太多，所以tmp1会是一个小表。所以可以将tmp1和B表进行map join，生成tmp2，再把tmp2分发到distribute file cache。

3）map读入A表和B表，假如记录来自A表，则判断key是否在tmp2中，如果是，输出到本地文件a，如果不是，则生成对，假如记录来自B表，生成对，进入reduce阶段。