![](https://img-blog.csdnimg.cn/20201014180756927.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
hadoop
文章平均质量分 50
daladalabao
把借口减少一半,把围绕目标的行动增加一倍。付出就会有收获,或大或小,或迟或早
展开
-
map-side join 和 reduce-side join
和是两种常见的数据连接技术,用于在大规模数据处理中合并不同数据集的内容。原创 2023-07-05 19:45:00 · 531 阅读 · 0 评论 -
Yarn集群架构和工作原理
它允许多个应用程序同时运行,通过动态地分配和回收资源来满足不同应用程序的需求,并提供一致的任务监控和管理功能。应用程序获取资源:一旦RM分配了资源,应用程序的AM将与NM通信,并请求启动容器。Container:Container是Yarn中的资源单位,表示在集群节点上分配给应用程序的一组资源,包括CPU、内存和网络等。容器中运行任务:一旦容器分配成功,应用程序的AM将向NM发送任务的代码和其他必要的信息。提交的应用程序包括代码和所需资源的描述,如应用程序类型、需要资源的数量和优先级等。原创 2023-07-03 18:45:00 · 1075 阅读 · 0 评论 -
hadoop中combiner是什么
然而,与Reducer不同的是,Combiner只在Map任务的本地节点上执行,并且对每个Map任务的输出进行局部处理。分组是为了减少数据传输量和提高规约器的效率。在规约过程中,具有相同键的键值对会被合并成一个键值对,并进行相应的聚合操作,从而减少最终输出的数据量。总结起来,Combiner是一个可选的局部聚合阶段,在Map阶段结束后、Reducer阶段之前执行,用于减少MapReduce任务的网络传输量和提高性能。分组是在规约之前对键值对进行分类,而规约是在分组后对具有相同键的键值对进行合并和聚合操作。原创 2023-06-30 18:45:00 · 1151 阅读 · 0 评论 -
HDFS组织架构及相关介绍
通过这种机制,Secondary NameNode维护了一个较小的fsimage和edits日志来加速HDFS集群的恢复速度和故障恢复能力,在NameNode崩溃时提供备份数据,同时减少NameNode服务器的压力,在大规模HDFS集群中发挥着重要作用。在非首次启动时,Namenode的工作流程与首次启动时类似。为了解决这个问题,Hadoop引入了Secondary NameNode,在内存中定期备份和合并NameNode的元数据,并将其写入本地磁盘中,而不会对NameNode的进程进行任何干扰或负担。原创 2023-06-25 18:45:00 · 1466 阅读 · 0 评论 -
HDFS读写流程
NameNode将位置信息返回给客户端:NameNode接收到客户端的请求后,会返回该文件所在的DataNode节点的IP地址和块ID等信息。客户端向NameNode请求文件的位置:客户端想要访问一个文件时,会向NameNode发送一个请求,要求获取该文件在HDFS上的位置信息。DataNode返回数据给客户端:DataNode收到客户端的读取请求,从本地磁盘读取相应的数据块,并将其返回给客户端。客户端合并数据:如果所请求的数据块不止一个,客户端可以根据需要将多个数据块的数据合并成一个完整的文件。原创 2023-06-20 21:15:00 · 1433 阅读 · 0 评论 -
复习Hadoop之HDFS
HDFS是什么hdfs是一个分布式文件系统使用场景一次写入多次读取,不支持文件的修改优缺点优点高容错:副本存储策略适合处理大数据(数据量和文件量)成本低:可构建在廉价机器上缺点不适合存储大量小文件不支持修改只能追加不适合低延迟数据访问组成架构NameNode:相当于一本书的目录处理客户端读写请求管理数据块的映射信息管理HDFS的命名空间配置副本策略DataNode:执行读写操作SecondaryNameNode:辅助NameNode原创 2022-02-16 13:35:43 · 462 阅读 · 0 评论 -
复习Hadoop之Yarn资源调度器
Yarn是什么yarn是一个资源调度平台,主要负责给 运算程序 提供 服务器运算资源 的,相当于一个操作系统平台,而mapreduce则可以看作是一个应用程序。基本架构组件:ResourceManger: 处理客户端的请求、监控NodeManager和Application、资源的分配与调度NodeManager:管理单个节点上的资源、处理ResourceManager和ApplicationMaster的命令ApplicationMaster:为应用程序申请资源并分配、负责数据的切分、任务原创 2022-02-16 11:49:00 · 297 阅读 · 0 评论 -
复习之MapTask机制和ReduceTask工作机制
MapTask机制总共分为5个阶段:1. read:读取文件数据2. map:解析key value值3. collect:4. 溢写:此时可能会有合并、压缩等操作5. combine:当所有数据处理完成后,MapTask对所有临时文件进行一次合并,以确保最终只会生成一个数据文件ReduceTask阶段:-1. copy:先有数据,要注意文件大小,如果查过某一个阈值则存储到磁盘否则放在内存中即可2. merge:在copy的同时,合并内存和磁盘的文件防止内存使用过多或者磁盘文件太多3. s原创 2022-02-15 15:35:16 · 293 阅读 · 0 评论 -
复习MapReduce之shuffle的combiner阶段
什么是combiner?Combiner是一个位于map和reduce之外的组件;Combiner组件的父亲就是reducer;Combiner和Reducer的区别就是运行的位置不同:Combiner在每个maptask节点运行Reducer是接收全局所有Mapper的结果作用:对每个maptask进行局部汇总,减小网络传输量使用场景:不能影响最终的业务逻辑...原创 2022-02-15 12:46:07 · 287 阅读 · 0 评论 -
复习Hadoop之MapReduce
Mapreduce优缺点优点:高容错:某一个计算任务在节点a上执行,这个时候如果节点a挂掉了,可以转移到节点b执行这个任务易于编程扩展性好:好多台机器缺点实时计算❌流式计算❌(mapreduce输入的数据是静态的)DAG(有向图计算)❌:每个mapreduce的结果都会落地到磁盘执行过程map阶段reduce阶段()...原创 2022-02-14 19:48:04 · 179 阅读 · 0 评论 -
复习MapReduce之CombineTextInputFormat切片机制
已经有了FileInputFormat切片机制为什么还有CombineTextInputFormat切片机制?答:FileInputFormat是对任务按照文件规划切片的,也就是说有多少个文件就有多少个任务,那么这个时候如果有大量小文件就会产生大量的MapTask导致效率低。而CombineTextInputFormat适用于小文件过多的场景,它可以把多个小文件在逻辑上规划到一个切片中,这样就把多个Maptask合并成一个Maptask切片机制(setMaxInputSplitFormat 为 4M.原创 2022-02-14 19:47:13 · 156 阅读 · 0 评论 -
复习MapReduce之FileInputFormat切片机制
切片机制简单的按照文件内容进行切片默认大小是Block大小切片时不考虑整体,只考虑单个文件进行单独切片原创 2022-02-14 19:16:54 · 273 阅读 · 0 评论 -
复习Hadoop基础,集群的启动以及信息查看
哦头大哦真是,距离课程结束一年多了,连集群都忘记怎么启动了wuwuwHadoop的优势:高可靠: 数据不会丢失(数据副本)高扩展: 多个集群超多个节点高容错: 任务出错中断了 也还会再重新执行Hadoop组成Yarn:负责资源调度分配MapReduce:负责计算Hdfs : 文件存储系统Hadoop运行模式本地模式伪分布式完全分布式环境搭建:Hadoop本地模式安装和分布式模式安装详细步骤...原创 2022-02-14 18:03:05 · 362 阅读 · 0 评论 -
MapReduce打包到集群上测试
原创 2021-03-24 18:25:41 · 102 阅读 · 0 评论 -
wordCount案例在集群上测试
修改Driver.javaJob job = Job.getInstance(); //封装成Job对象 //指明main方法在Driver类中 job.setJarByClass(Driver.class); job.setMapOutputKeyClass(Text.class);//map输出的key的类型 job.setMapOutputValueClass(IntWritable.class); job.原创 2020-12-18 13:37:45 · 234 阅读 · 0 评论 -
MapReduce的执行流程和编程规范以及简单的WordCount案例
▶\blacktriangleright▶ MapReduce编程规范Mapper阶段(以WordCount为例)用户自定义的类要继承Mapper类输入的数据是KV对的形式(K:当前行数,V:当前行的内容)Mapper中的业务逻辑写在map()方法中,也就是说要重写map方法输出数据也是KV对的形式(K:每个单词 V: 1 )map方法对每个K V调用一次Reducer阶段8i9=-0o用户自定义的类要继承Reducer类输入类型诗句对应的时Mapper的输出数据类型,也是原创 2020-12-17 20:14:11 · 183 阅读 · 0 评论 -
Windows下HDFS的API操作:创建目录、删除目录、查看......
步骤 1.获取到hadoop文件系统 2.调用方法 3.关闭流创建目录public void mkdirTest() throws URISyntaxException, IOException, InterruptedException { Configuration conf = new Configuration(); //获取到Hadoop文件系统 FileSystem fs = FileSystem.get(new U..原创 2020-12-16 17:22:59 · 954 阅读 · 0 评论 -
HDFS客户端环境准备
解压jar包配置环境变量Path中添加新建maven项目自定义名字选择路径,最后点击finish则创建成功在pom.xml中导入依赖<dependencies> <dependency> <groupId>junit</groupId> <artifactId>junit</artifactId> <..原创 2020-12-16 17:19:46 · 169 阅读 · 0 评论 -
服役新数据节点和退役旧服务节点
▶\blacktriangleright▶ 服役新数据节点克隆一台虚拟机hadoop104修改信息:映射关系 网卡 主机名 网络地址完全分布式第一台配置映射关系 加一条新克隆的启动 datanode 和 nodemanager上传文件 检验 hdfs dfs -put hadoop-hduser-datanode-hadoop104.log /50070端口中有这个代表成功-▶\blacktriangleright▶ 添加白名单添加到白名单的主机节点,都允许访问NameNode,原创 2020-12-15 15:19:24 · 130 阅读 · 0 评论 -
HDFS的简单介绍,体系结构和数据流
▶\blacktriangleright▶ HDFS简单介绍 (Hadoop核心技术止之一)优缺点优点:运行在廉价的硬件之上适合存储超大文件流式数据访问:一次写入多次读取缺点:不适合低延迟数据访问 : HDFS是为了处理大型数据集分析任务、为达到高的数据吞吐量而设计的无法高效存储大量的小文件 :namenode是存储源文件并放置在内存中的,文件系统所能容纳的文件数目由namenode的内存大小决定不支持多用户写入及任意修改文件 :在HDFS的一个文件中只有一个写入者,而且原创 2020-12-14 19:04:00 · 254 阅读 · 0 评论 -
HDFS的Shell操作及常见命令
常见命令查看有哪些命令 hadoop fs(能查到不一定能用,比如moveToLocal)查看tail命令的使用方法 hdfs dfs -help tail查看根目录下有那些文件 hdfs dfs -ls /路径只能是绝对路径安全模式 (安全模式状态下只能读不能写)查看安全模式状态:hdfs dfsadmin -safemomde get进入安全模式状态:hdfs dfsadmin -safemode enter离开安全模式状态:hdfs dfsadmin -safemod原创 2020-12-14 18:33:31 · 340 阅读 · 0 评论 -
搭建集群分发脚本
▶\blacktriangleright▶ 集群分发脚本两个主机之间copy数据(安全拷贝) :scp命令:scp -r 要拷贝的文件路径/名称 目的用户@主机:目的路径/名称xsync 远程同步工具 xsync -rvl 要拷贝的文件路径/名称 目的用户@主机:目的路径/名称在 /usr/local/bin 新建xsync文件 并修改所在用户组和加上执行权限修改用户组chown hduser:hduser xsync修改执行权限chmod u+x xsyn原创 2020-12-11 14:53:49 · 125 阅读 · 0 评论 -
Hadoop本地模式安装和分布式模式安装详细步骤
▶\blacktriangleright▶ Hadoop 本地安装模式wordcount 统计个数 命令:hadoop jar /home/hduser/software/hadoop-2.7.2/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.2.jar wordcount /home/hduser/software/hadoop-2.7.2/input/wc.input /home/hduser/software/hadoop-2原创 2020-12-09 17:25:45 · 409 阅读 · 0 评论