Hadoop
文章平均质量分 86
在人间负债^
是微风,是晚霞,是无可替代
展开
-
Hadoop 复习 ---- chapter08
4:服务器端框架层:RPC Server 利用 java NIO(非阻塞的异步 IO)以及采用了事件驱动的 I / O模型,提高了 RPC Server 的并发处理能力。1:序列化层:客户端与服务器端通信传递的信息采用了 Hadoop 里提供的序列化类或自定义的 Writable 类型。2:服务器daunt接收到这个请求以后,根据发送过来的参数调用相应的程序,然后把自己计算好的结果发送给客户端。由于代理对象要实现与目标对象一致的接口,会产生过多的代理类。静态代理:代理对象和目标对象实现一样的接口。原创 2023-02-05 21:56:35 · 365 阅读 · 0 评论 -
Hadoop 复习 ---- chapter07【洗牌游戏】
我们有两个 mapTask == 两个环形缓存区 == 两个 spill.out 文件。copy:reduceTask 主动的拉取 spill.out 中的属于当前区的数据。文件的大小 52*10 = 520M,这个文件是可以切分的。是环形缓存区决定的,mapTask 的数量决定 == 是 client 决定。350 * 0.66 = 213M == 230M == 23 张。mapTask 的数量 == 环形缓存区的数量 == 2 个。是 0.8,那么这个阀值内存 == 80M == 8 张。原创 2023-02-05 09:23:25 · 391 阅读 · 0 评论 -
Hadoop 复习 ---- chapter06
3.2 元数据的结构:key/value 的元数据存储的格式是 int 类型,每个 key/value 对应一个元数据,元数据由 4 个 int 组成,第一个 int 存放 value 的起始位置,第二个 int 存放 key 的起始位置,第三个 int 存放 partition,第四个 int 存放 value 的长度。MapReduce 框架的运作完全基于“键值对”,即数据的输入是一批“键值对”(key-value),生成的结果也是一批“键值对”,只是有时候它们的类型不一样而已。原创 2023-02-04 10:05:10 · 1005 阅读 · 0 评论 -
Hadoop 复习 ---- chapter05
snappy:需要安装,且压缩不可以被切割, 压缩效率排第四,速度排第一,而且它的速度远远快于第二名。不能切片,它适合低于 128M 的数据压缩,但是它的压缩效率排第二,压缩速率排第三。7、注意:反序列化字段的数据类型和顺序必须和序列化字段的数据类型和顺序一致。7、注意:反序列化字段的数据类型和顺序必须和序列化字段的数据类型和顺序一致。bzip2:不需要安装,且压缩可以被切割,压缩效率第一,速度排第四。lzo:需要安装,且压缩可以被切割,压缩效率排第三,速度排第二。原创 2023-02-03 09:37:48 · 800 阅读 · 0 评论 -
Hadoop 复习 ---- chapter04
2:启动 namenode,start-all.sh,是不是也在启动 datanode,datanode 会主动将他的信息发送给 namenode,所以 namenode 拥有 datanode 的命名空间信息。这时没内存元数据的数据就是最新数据,如果你要进行查询操作,你是对内存元数据进行的查询操作。dfs.name.dir = /opt/hadoop/namenode:存放 namenode 信息的目录。hadoop.tmp.dir = /opt.hadoop/tmp:存放临时文件的目录。原创 2023-02-02 12:33:43 · 403 阅读 · 0 评论 -
Hadoop 复习 ---- chapter03【Hadoop安装】
------------ 安装jdk and hadoop ------------------------- hadoop配置 -----------------因为格式化过程中,三个文件中会格式化一系列的文件,所以重现格式化之前,删除…------------ 启动hadoop -----------还需要 source 命令将配置信息更新到系统中。通过o进入输入模式,在文档最下方配置。原创 2023-02-01 10:17:42 · 123 阅读 · 0 评论 -
Hadoop 复习 ---- chapter02【Linux基础】
检查硬盘分区和已挂在的文件系统的磁盘空间,也就是说,检查硬盘的使用量。:列举目录中的细节:权限、所有者、组群、大小、创建日期、文件是否链接。:可以用来合并文件、可以用来显示整个文件的内容。:增加用户,只有 root 用户才能增加用户。:扩展名为bz2的压缩/解压缩工具。:扩展名为zip的压缩/解压缩工具。:查看目前程序的执行和内存使用情况。:显示、设定、修改现在的时间和日期。:删除的只是目录,只能删除空目录。:扩展名为gz的压缩/解压缩工具。:用来终止一个正在执行中的进程。:用来传输文件,非常重要。原创 2023-01-31 15:42:20 · 281 阅读 · 0 评论 -
Hadoop 复习 ---- chapter01【大数据概念】
指“无法由现有软件工具进行提取、存储、搜索、共享、分析和处理的庞大而复杂的数据集”。通常由四个 V 来描述(大量数据、多样化、价值密度低、速度快)。大量数据(valume):从 TB 级别,跃升到 PB 级别多样化(variety):网络日志、视频、图片、地理位置价值密度低(value):价值密度与数据总量成反比。速度快(velocity):大数据区分为传统数据挖掘的显著特征–一秒定律。原创 2023-01-29 20:35:19 · 849 阅读 · 1 评论 -
Hadoop 3.x(生产调优手册)----【Hadoop综合调优】
HDFS 上每个文件都要在 NameNode 上创建对应的元数据,这个元数据的大小约为 150byte,这样当小文件比较多的时候,就会产生很多的元数据文件,一方面会大量占用 NameNode 的内存空间,另一方面就是元数据文件过多,使的寻址索引速度变慢。(1)使用 RandomWriter 来生产随机数,每个节点运行 10 个 Map 任务,每个 Map 产生大约 1G 大小的二进制随机数。平均每个节点运行 10 个 / 3 台 ≈ 3 个任务(4 3 3)(2)执行 Sort 程序。原创 2022-10-28 13:30:40 · 183 阅读 · 0 评论 -
Hadoop 3.x(生产调优手册)----【MapReduce、Hadoop-Yarn生产经验】
【代码】Hadoop 3.x(生产调优手册)----【MapReduce、Hadoop-Yarn生产经验】原创 2022-10-26 11:20:05 · 185 阅读 · 0 评论 -
Hadoop 3.x(生产调优手册)----【HDFS--故障排除】
注意:采用三台服务器即可,恢复到 Yarn 开始的服务器快照,原创 2022-10-25 13:24:03 · 602 阅读 · 0 评论 -
Hadoop 3.x(生产调优手册)----【HDFS--存储优化】
演示纠缠码和异构存储需要一共5台虚拟机。尽量拿另外一套集群。提前准备5台服务器的集群。原创 2022-10-24 11:07:53 · 695 阅读 · 0 评论 -
Hadoop 3.x(生产调优手册)----【HDFS--集群扩容及缩容】
在企业开发中,如果经常在 hadoop102 和 hadoop104 上提交任务,且副本数为2,由于数据本地性原则,就会导致 hadoop102 和 hadoop104 数据过多,hadoop103 存储的数据量小。随着公司业务的增长,数据量越来越大,原有的数据节点的容量已经不能满足存储数据的需求,需要在原有捷群基础上行动态添加新的数据节点。浏览器,退役节点的状态为 decommission in progress(退役中),说明数据节点正在赋值块到其他结点。添加如下主机名称(要退役的节点)原创 2022-10-23 14:39:53 · 173 阅读 · 0 评论 -
Hadoop 3.x(生产调优手册)----【HDFS--多目录】
生产环境,由于硬盘空间不足,往往需要增加一块硬盘。刚加载的硬盘没有数据时,可以执行磁盘数据均衡命令。(2)停止集群,删除三台节点的 data 和 logs 中所有数据。(3)格式化集群并启动。原创 2022-10-22 11:32:10 · 120 阅读 · 0 评论 -
Hadoop 3.x(生产调优手册)----【HDFS--集群压测】
在企业中非常关心每天从 Java 后台拉取过来的数据,需要多久能上传到集群?消费者关心多久能从 HDFS 上拉取需要的数据?为了搞清楚 HDFS 的读写性能,生产环境上非常需要对集群进行压测。HDFS 的读写性能主要受影响比较大。为了方便测试,将 hadoop102、hadoop103、hadoop104 虚拟机网络都设置为 100mbps。100Mbps 单位是 bit;10M/s 单位是 byte;原创 2022-10-21 08:13:45 · 304 阅读 · 0 评论 -
Hadoop 3.x(生产调优手册)----【HDFS--核心参数】
NameNode 内存默认 2000m,如果服务器内存 4G,NameNode 内存可以配置 3G。查看发现 hadoop102 上的 NameNode 和 DataNode 占用内存都是自动分配的,且相等。开启回收站功能,可以将删除的文件在不超时的情况下,恢复原数据,起到防止误删除、备份等作用。每个文件块大概占用 150byte,一台服务器 128G 内存为例,能存储多少文件块呢?回收站目录在 HDFS 集群中的路径:/user/fickler/.Trash/…修改完后,记得分发配置,重启服务。原创 2022-10-20 17:34:04 · 533 阅读 · 0 评论 -
Hadoop 3.x(Yarn)----【Yarn 案例实操】
需求:从 1G 数据中,统计每个单词出现次数。服务器 3 台,每台配置 4G 内存,4 核CPU,4 线程。需求分析:1G / 128m = 8 个 MpaTask;1 个 ReduceTask;1 个 mrAppMaster平均每个节点运行 10 个 / 3 台 ≈ 3 个任务(4 3 3)修改 配置参数:关闭虚拟内存检查的原因重启集群执行 WordCount 程序观察 Yarn 任务执行页面2. 容量调度器多队列提交案例在生产环境怎么创建队列?创建多队列的原创 2022-10-19 19:22:28 · 318 阅读 · 0 评论 -
Hadoop 3.x(Yarn)----【Yarn 资源调度器】
是一个资源调度平台,负责为运算程序提供服务器运算资源,相当于一个分布式的,而等运算程序则相当于运行与。原创 2022-10-18 14:49:36 · 671 阅读 · 0 评论 -
Hadoop 3.x(MapReduce)----【Hadoop 数据压缩】
压缩的优点:以减少磁盘 IO、减少磁盘存储空间。压缩的缺点:增加 CPU 开销。原创 2022-10-17 10:35:56 · 786 阅读 · 1 评论 -
Hadoop 3.x(MapReduce)----【MapReduce 框架原理 六】
默认使用的实现类是:TextInputFormatTextInputFormat 的功能逻辑是:一次读一行文本,然后将该行的起始偏移量作为 key,行内人作为 value 返回。CombineTextInputFormat 可以把多个小文件合并成一个切片处理,提供处理效率。原创 2022-10-16 11:05:22 · 151 阅读 · 0 评论 -
Hadoop 3.x(MapReduce)----【MapReduce 框架原理 五】
缺点:这种方式中,合并的操作是在 Reduce 阶段完成,Reduce 端的处理压力太大,Map 节点的运算负载则很低,资源利用率不高,且在 Reduce 阶段极易产生数据倾斜。解决方案:Map 端实现数据合并。原创 2022-10-15 11:13:33 · 304 阅读 · 0 评论 -
Hadoop 3.x(MapReduce)----【MapReduce 框架原理 四】
步骤1:利用快速排序算法对缓存去内的数据进行排序,排序方式是,先按照分区编号 Partition 进行排序,然后按照 key 进行排序这样,经过排序后,数据以分区为单位聚集在一起,且同一分区内所有数据按照 key 有序。步骤3:将分区数据的元信息写到内存索引数据结构 SpillRecord 中,其中每个分区的元信息包括临时文件中的偏移量、压缩前数据大小和压缩后数据大小。(默认10)个文件,并将产生的文件重新加入待合并列表中,对文件排序后,重复以上过程,直到最终得到一个大文件。中,同时生成相应的索引文件。原创 2022-10-14 08:02:57 · 278 阅读 · 0 评论 -
Hadoop 3.x(MapReduce)----【MapReduce 框架原理 三】
过了输入的 log 日志,包含atguigu的网站输出到,不包含atguigu的网站输出到。输入数据期望输出数据。原创 2022-10-13 10:47:51 · 340 阅读 · 0 评论 -
Hadoop 3.x(MapReduce)----【MapReduce 框架原理 二】
自定义类继承 Partition,重写 getPartition() 方法在 Job 驱动中,设置自定义 Partition自定义 Partition 后,要根据自定义 Partition 的逻辑设置相应数量的 ReduceTask如果 ReduceTask 的数量 > getPartition 的结果数,则会多产生几个空的输出文件;如果 1 < ReduceTask 的数量 < getPartition 的结果数,则有一部分分区数据无处安放,会Exception;原创 2022-10-12 09:56:43 · 535 阅读 · 1 评论 -
Hadoop 3.x(MapReduce)----【MapReduce 框架原理 一】
剩余的大小为 4.02M,如果按照 4M 逻辑划分,就会出现 0.02M 的小的虚拟存储文件,所以将剩余的 4.02M 文件切分成(2.01M 和 2.01M)两个文件。:1G 的数据,启动 8 个MapTask,可以提高集群的并发处理能力。CombineTextInputFormat 用于小文件过多的场景,它可以将多个小文件从逻辑上规划到一个切片中,这样,多个小文件就可以交给一个 MapTask 处理。(切片最大值):参数如果调的比 blockSize 小,则会让切片变小,而且就等于配置的这个参数的值。原创 2022-10-11 11:15:43 · 312 阅读 · 0 评论 -
Hadoop 3.x(MapReduce)----【Hadoop 序列化】
序列化就是把内存中的对象,转换成字节序列(或其他数据传输协议)以便于存储到磁盘(持久化)和网络传输。反序列化就是将接收到字节序列(或其他数据传输协议)或者是磁盘的持久化数据,转换成内存中的对象。在企业开发中往往常用的基本序列化类型不能满足所有需求,比如在 Hadoop 框架内部传递一个 bean 对象,那么该对象就需要实现序列化接口。具体实现 bean 对象序列化步骤如下 7 步。必须实现 Writable 接口反序列化时,需要反射调用空参构造函数,所以必须有空参构造super();}原创 2022-10-10 10:13:31 · 147 阅读 · 0 评论 -
Hadoop 3.x(MapReduce)----【MapReduce 概述】
MapReduce 是一个分布式运算程序的编程框架,是用户开发“基于 Hadoop 的数据分析应用”的核心框架。MapReduce 核心功能是将用户编写的业务逻辑代码和自带默认组件整合成一个完整的分布式运算程序,并发运行在一个 Hadoop 集群上。原创 2022-10-09 10:05:40 · 1109 阅读 · 0 评论 -
Hadoop 3.x(HDFS)----【DataNode】
思考:如果电脑磁盘里面存储的数据是控制高铁信号灯的红灯信息号(1)和绿灯信号(0),但是存储该数据的磁盘坏了,一直显示时绿灯,是否很危险?同理 DataNode 节点上的数据损坏了,却没有发现,是否也很危险,那么如何解决呢?心跳是每3秒一次,心跳返回结果带有 NameNode 给该 DataNode 的命令如复制块数据到另一台机器,或删除某个数据块。需要注意的是 hdfs-site.xml 配置文件中的 heartbeat.recheck.interval 的单位为毫秒,dfs。heartbeat。原创 2022-10-08 11:05:06 · 383 阅读 · 0 评论 -
Hadoop 3.x(HDFS)----【NameNode 和 SecondaryNameNode】
这样又回带来新的问题,当在内不吃你中的元数据更新时,如果同时更新 FsImage,就会导致效率过低,但如果不更新,就会法神一致性问题,一旦 NameNode 节点断电,就会产生数据丢失。但是,如果长时间添加数据到 Edits 中,就会导致该文件数据过大,效率降低,而且一旦断电,恢复元数据需要的时间过长,因此,需要定期进行 FsImage 和 Edits 的合并,如果这个操作由 NameNode 节点完成,又回效率过低。但如果只存在内存中,一旦断电,元数据丢失,整个集群就无法工作了。原创 2022-10-07 08:12:25 · 690 阅读 · 0 评论 -
Hadoop 3.x(HDFS)----【HDFS 的读写流程】
在 HDFS 写数据的过程中,NameNode 会选择距离待上传数据最近距离的 DataNode 接收数据。那么这个最近距离怎么计算呢?第一个副本在 Clinet 所处的节点上。如果客户端在集群外,随机选择一个。第三个副本在第二个副本所在机架的随机节点。第二个副本在另一个机架的随机一个节点。原创 2022-10-06 10:34:01 · 959 阅读 · 0 评论 -
Hadoop 3.x(HDFS)----【HDFS 的 API 操作】
参数优先级排序:1.客户端代码中设置的值 > 2.ClassPath 下的用户定义配置文件 > 3.然后是服务器的自定义配置(xxx.site.xml) > 4.服务器的默认配置(xxx-default.xml)说明缺少微软运行库(正版系统往往会有这个问题,但是不是说,没有出现错误,系统就是盗版的了 …在 IDEA 中创建一个 Maven 工程 HdfsClientDemo,并导入相应的依赖坐标 + 日志添加。文件到非中文路径(如:Z:\hadoop-3.1.0)目录下,新建一个文件,命名为。原创 2022-10-05 10:25:27 · 739 阅读 · 0 评论 -
Hadoop 3.x(HDFS)----【HDFS 的 Shell 操作】
这里设置的副本数只是记录在 NameNode 的元数据中,是否真的会有这么多副本,还得看 DataNode 的数量。因为目前只有 3 台设备,最多也就是 3 个副本,只有节点数增加到 10 台时,副本数才能达到 10。说明:27 表示文件大小;81 表示 27*3 个副本;/jinguo 表示查看的目录。原创 2022-10-04 09:39:58 · 725 阅读 · 0 评论 -
Hadoop 3.x(HDFS)----【HDFS 概述】
随着数据量越来越大,在一个操作系统存不下所有的数据,那么就分配到更多的操作系统管理的磁盘中,但是不方便管理和维护,迫切需要一种系统来管理多台机器上的文件,这就是分布式文件管理系统。HDFS只是分布式文件管理系统中的一种。HDFS,它是一个文件系统,用于存储文件,通过目录树来定位文件;其次,它是分布式的,由很多服务器联合起来实现其功能,集群中的服务器有各自的角色。HDFS的使用场景:适合一次写入,多次读出的场景。一个文件经过创建、写入和关闭之后就不需要改变。原创 2022-10-03 11:28:09 · 375 阅读 · 0 评论 -
Hadoop 3.x(入门)----【Hadoop 运行模式】
整体启动/停止HDFS整体启动/停止YARN。原创 2022-10-02 10:16:25 · 898 阅读 · 1 评论 -
Hadoop 3.x(入门)----【Hadoop 运行环境搭建(开发重点)】
总体来说,安装…超级麻烦…安装时遇到问题了,就把错误的信息复制下来,多上百度搜一搜…会有奇效如果能有人指导安装的话,那就一定不要自己闭门造车…原创 2022-10-01 09:39:42 · 523 阅读 · 0 评论 -
Hadoop 3.x(入门)----【Hadoop概述】
Hadoop Distributed File System,简称 HDFS,是一个分布式文件系统。NameNode(nn):存储文件的元数据,如文件名、文件目录结构、文件属性(生成时间、副本数、文件权限),以及每个文件的块列表和块所在的 DataNode 等。DataNode(dn):在本地文件系统存储文件块数据,以及块数据的校验和。Seconddary NameNode(2nn):每隔一段时间对 NameNode 元数据备份。原创 2022-09-02 17:08:51 · 714 阅读 · 0 评论 -
Hadoop 3.x【大数据概念】
人才紧缺、竞争压力小工资高!!!原创 2022-09-01 21:13:51 · 521 阅读 · 0 评论