![](https://img-blog.csdnimg.cn/20201014180756918.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
大数据入门框架之Hadoop
文章平均质量分 91
以实战为线索,逐步深入学习Hadoop框架下的三大核心组件:HDFS,MapReduce,Yarn
丷江南南
大数据开发入门小白一枚,希望能结识志同道合的朋友,一起学习!
展开
-
Hadoop框架---Yarn工作机制、调度器与调度算法
•公平调度器设计目标是:在时间尺度上,所有作业获得公平的资源。是一个资源调度平台,负责为运算程序提供服务器运算资源,相当于一个分布式的。为了防止同一个用户的作业独占队列中的资源,该调度器会对。:每个队列可配置一定的资源量,等运算程序则相当于运行于。1)与容量调度器相同点。,则其他队列借调的资源。2)与容量调度器不同点。,生产环境很少使用;原创 2023-05-18 17:33:17 · 243 阅读 · 0 评论 -
Hadoop框架---MapReduce框架原理(中)
对于MapTask,它会将处理的结果暂时放到环形缓冲区中,原创 2023-05-08 17:24:03 · 190 阅读 · 1 评论 -
Hadoop框架---Hadoop序列化
序列化就是把内存中的对象转换成字节序列(或其他数据传输协议)以便于存储到磁盘(持久化)和网络传输。反序列化就是将收到字节序列(或其他数据传输协议)或者是磁盘的持久化数据转换成内存中的对象。在企业开发中往往常用的基本序列化类型不能满足所有需求,比如在 Hadoop 框架内部传递一个bean 对象,那么该对象就需要实现序列化接口。具体实现 bean 对象序列化步骤如下 7 步。(1)必须实现 Writable 接口(2)super();(3)重写序列化方法(4)重写反序列化方法(5)原创 2023-05-05 18:56:49 · 335 阅读 · 1 评论 -
Hadoop框架---HDFS的Shell命令操作
其有很多命令,但在生产环境中我们经常使用的命令并没有那么多,因此需要时再回头查阅上图中的命令即可。put命令和copyFromLocal命令有着相同的复制效果,所以我们。这里我们把3台服务器各自对应的节点都打开了,为了方便后续测试。在使用shell命令前,一定要确保我们的Hadoop。自由选择以上任意一种语法格式。跳转到Web端的HDFS,处于。原创 2023-04-27 18:49:44 · 1943 阅读 · 1 评论 -
Hadoop框架---HDFS的读写流程
为单位,dn1 收到一个 Packet 就会传给 dn2,dn2 传给 dn3;dn1 每传一个 packet。(8)当一个 Block 传输完成之后,客户端。请求上传文件,NameNode。数据,dn1 收到请求会继续。,将这个通信管道建立完成。上传第一个 Block(dn2 调用 dn3。Packet 为单位。原创 2023-05-03 20:30:54 · 139 阅读 · 1 评论 -
Hadoop框架---MapReduce框架原理(上)
(7)合并成大文件后,Shuffle 的过程也就结束了,后面进入 ReduceTask 的逻辑运算过程(从文件中取出一个一个的键值对 Group,调用用户自定义的 reduce()方法)CombineTextInputFormat 用于小文件过多的场景,它可以将多个小文件从逻辑上规划到一个切片中,这样,多个小文件就可以交给一个 MapTask 处理。(1)Shuffle 中的缓冲区大小会影响到 MapReduce 程序的执行效率,原则上说,缓冲区越大,磁盘 io 的次数越少,执行速度就越快。原创 2023-05-06 19:13:31 · 237 阅读 · 1 评论 -
Hadoop框架---HDFS文件块
比如,当遍历集群中的block块,直到找到我们想要的block,花费的寻址时间为10ms,那么此时传输时间=10ms/0.0.1=1000ms=1s。,块的大小可以通过配置参数(dfs.blocksize)来规定,默认在。,那么如果后续要查找该文件的话,由于要找该文件对应的100个块,这将会。,那么一般的小文件可能都会被存储在同一个块中,显然。决定,某些公司使用的硬盘好,传输速率高,比如。,导致程序在处理这块数据时,会非常慢。,程序一直在寻找块的开始位置;(1)HDFS的块设置。不是整数,计算机中的。原创 2023-04-26 18:27:52 · 399 阅读 · 2 评论 -
Hadoop框架---MapReduce框架原理(下)
1)需求过滤输入的 log 日志,包含 atguigu的网站输出到不包含 atguigu的网站输出到。(1)输入data(2)期望输出数据2)需求分析3)案例实操(1)编写 LogMapper 类//map不需要分割 也不需要其他操作 直接输出 context . write(value , NullWritable . get());} }(2)编写 LogReducer 类。原创 2023-05-11 16:46:45 · 97 阅读 · 0 评论 -
Hadoop框架-HDFS-客户端API操作
(因为后续我们把关闭对象的操作也封装到了类中的另一方法内,关闭时需要调用该对象)接下来便可以编写代码了,为了方便后续使用,我们把。注意这里我们为mkdirs方法传入的参数仅为1个。命令把FileSystem对象升级为类中的一个。执行,所以只需要写需要执行的操作的代码即可。如果进行校验,则该crc文件不会产生。方法(获取客户端FileSystem对象)方法(关闭客户端FileSystem对象)服务器上,并且HDFS在hadoop的。同样,关闭资源的操作我们也封装到一个。当然,在执行以上操作前,首先要确保。原创 2023-04-24 21:00:46 · 901 阅读 · 4 评论 -
Hadoop框架---MapReduce概述
MapReduce是一个分布式运算程序的编程框架,其核心功能为把用户编写的业务逻辑代码和自带默认组件整合成一个完整的分布式运算程序并发运行在Hadoop集群上。原创 2023-05-04 19:36:31 · 956 阅读 · 0 评论 -
Hadoop框架---Join应用与数据清洗(ETL)
1)输入数据接口:InputFormatTextInputFormat(按行读取)一次读一行文本,然后将该行的起始偏移量作为key行内容作为value返回。(3)CombineTextInputFormat 可以把多个小文件合并成一个切片处理,提高处理效率。2)逻辑处理接口:Mappermap()用户业务逻辑setup()初始化cleanup ()关闭资源3)Partitioner 分区(1)有默认实现,逻辑是根据 key的哈希值和numReduces来返回一个分区号;原创 2023-05-15 18:26:45 · 393 阅读 · 0 评论