![](https://img-blog.csdnimg.cn/20201014180756927.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
Hadoop
文章平均质量分 93
想做CTO的任同学...
好好规划自己的路,不要跟着感觉走......
展开
-
Hadoop概念补充
2. **Slow Start**:MapReduce的AM在申请资源的时候,会一次性申请所有的Map资源,延后申请reduce的资源,这样就能达到先执行完大部分Map再执行Reduce的目的。当多少占比的Map执行完后开始执行Reduce。默认5%的Map跑完后开始起Reduce。如果想要Map完全结束后执行Reduce调整该值为13. **小文件优化**: 1. HDFS:hadoop的存储每个文件都会在NameNode上记录元数据,如果同样大小的文件,文件很小的话,就会产生很多文件,造成NameN原创 2021-05-11 18:28:12 · 110 阅读 · 1 评论 -
Hadoop - Yarn架构介绍
息。## Yarn工作机制1. Yarn任务提交分为:作业提交,作业初始化,任务分配,任务运行,进度和状态更新,作业完成。2. 作业提交 1. 第1步:Client调用job.waitForCompletion方法,向整个集群提交MapReduce作业。 2. 第2步:Client向RM申请一个作业id。 3. 第3步:RM给Client返回该job资源的提交路径和作业id。 4. 第4步:Client提交jar包、切片信息和配置文件到指定的资源提交路径。 5. 第5步:Client提交原创 2021-05-07 17:44:12 · 92 阅读 · 0 评论 -
Hadoop之MapReduce(编程框架)详细介绍
ReduceTask的并行度同样影响整个Job的执行并发度和执行效率,但与MapTask的并发数由切片数决定不同,ReduceTask数量的决定是可以直接手动设置:ReduceTask=0,表示没有Reduce阶段,输出文件数和MapTask数量保持一致;ReduceTask数量不设置默认就是一个,输出文件数量为1个;如果数据分布不均匀,可能在Reduce阶段产生倾斜;InputFormatOutputFormat...原创 2021-05-04 19:39:52 · 766 阅读 · 0 评论 -
Hadoop之MapReduce(编程框架)
1. MapReduce时一个分布式运算程序的编程框架,是用户开发基于Hadoop的数据分析应用的核心框架2. MapRdcue核心功能是将用户编写的业务逻辑代码和自带默认组件整合成一个完整的分布式运算程序,并发运行在一个Hadoop集群上。## MapReduce的优点1. MapReduce易于编程: 1. MapReduce简单的实现一些接口,就可以完成一个分布式程序,这个分布式程序可以分布到大量廉价的节点上运行2. 良好的扩展性: 1. 当集群的计算资源不能得到满足的时候,可以通过简单原创 2021-04-14 21:37:30 · 464 阅读 · 0 评论 -
Hadoop入门(四)
NameNode故障处理NameNode故障后,HDFS集群就无法正常工作,因为HDFS文件系统的元数据需要由NameNode来管理维护并与Client交互,如果元数据出现损坏和丢失同样会导致NameNode无法正常工作进而HDFS文件系统无法正常对外提供服务NameNode故障后,可以采用如下两种方法恢复数据:第一种:将SecondaryNameNode中数据拷贝到NameNode存储数据的目录;第二种:使用-importCheckpoint选项启动NameNode守护进程,从而将Second原创 2021-04-12 22:04:01 · 157 阅读 · 4 评论 -
Hadoop——(HDFS存储机制(读写),NameNode如何管理和存储元数据,HDFS元数据管理流程,NameNode与SecondaryNameNode,Fsimage与Edits文件解析)
序列化就是把内存中的对象,转换成字节序列(或其他数据传输协议)以便于存储(持久化)和网络传输。反序列化就是将收到字节序列(或其他数据传输协议)或者是硬盘的持久化数据,转换成内存中的对象。Java的序列化是一个重量级序列化框架(Serializable),一个对象被序列化后,会附带很多额外的信息(各种校验信息,header,继承体系等),不便于在网络中高效传输。所以,hadoop自己开发了一套序列化机制(Writable),精简、高效。原创 2021-04-10 22:00:46 · 1043 阅读 · 0 评论 -
Hadoop——(分布式文件系统HDFS,HDFS 组织架构,HDFS核心机制,HDFS文件块,HDFS文件块)
HDFS 中的文件在物理上是分块存储(block)的,block的大小可以通过配置参数来规定;设置的副本数只是记录在NameNode的元数据中,是否真的会有这么多副本,还得看DataNode的数量。-getmerge:合并下载多个文件,比如HDFS的目录 /user/atguigu/test下有多个文件:log.1, log.2,log.3,…:等同于copyToLocal,就是从HDFS下载文件到本地:`:Linux文件系统中的用法一样,修改文件所属权限。:从本地文件系统中拷贝文件到HDFS路径去。原创 2021-04-09 09:42:10 · 627 阅读 · 0 评论 -
Hadoop——(Hadoop框架,Hadoop的优缺点,Hadoop1.x和2.x的版本区别,Hadoop架构,Hadoop目录结构)
大数据是指无法再一定时间范围内用常规软件工具进行捕捉,管理和处理的数据集合,同时大数据也是需要新的处理模式才能具有更强的决策力,洞察发现力和流程优化能力的海量以及多样化的信息资产。大数据的特点:大量,高速,多样,真实以及低价值。大量:指的是采集,存储和计算的数据量都非常大。高速:指的是在大数据时代,数据的创建,存储,分析都被要求高速处理,比如电商网站的个性化推荐尽可能要求实时完成推荐,这也是大数据区别于传统数据挖掘的显著特征。多样。原创 2021-04-08 09:02:34 · 2034 阅读 · 0 评论