Hadoop
文章平均质量分 83
马小胖测试历险记
卑微测试从业者,愿生活里没有bug!
展开
-
基于测试人员角度理解Hadoop---MapReduce架构
导语:其实并没有接触过基于mr编程的离线数据业务的测试,只是基于想了解底层架构的角度,通过一些大佬的文章总结整理记录下MapReduce的基本工作流程 一、什么是MapReduce 1、MapReduce->分布式运算程序的编程框架,核心功能是将用户编写的业务逻辑代码和自带默认组件整合成一个完整的分布式运算程序需,并发运行在一个hadoop集群上 2、核心思想:分而治之 Map:负责分,拆分成小任务并行计算 Reduce:负责合,map阶段结果全局汇总 整体:将一个复杂的大任务,分割.原创 2021-01-02 19:28:19 · 92 阅读 · 0 评论 -
HDFS(五)---其它功能介绍
----尚硅谷大数据学习笔记整理记录 一、HDFS小文件存档 1、弊端:大量小文件会消耗NameNode中的大部分内存,造成低效 2、解决办法 1)将小文件整合存档为:HDFS存档文件或HAR文件 用法: # 用法 #1.创建归档文件 archive -archiveName <NAME>.har -p <parent path> [-r <replication factor>]<src>* <dest> bin/hadoop ar原创 2020-12-29 17:09:37 · 150 阅读 · 0 评论 -
HDFS(四)----DataNode工作机制
----尚硅谷笔记学习整理 一、DataNode工作机制 1、一个数据块在DataNode上以文件形式存储在磁盘上,包括两个文件,一个是数据本身,一个是元数据包括数据块的长度、快数据的校验和,以及时间戳, 2、DataNode启动后向NameNode注册,通过后,周期性的向NameNode上报所有的块信息 3、心跳是每三秒一次,心跳返回结果带有NameNode给该DataNode命令如复制块数据到另一台机器,或删除某个数据块,如果超过10分钟没收到某个DataNode的心跳,则认为该节点不可用 4原创 2020-12-28 13:36:55 · 102 阅读 · 0 评论 -
HDFS(三)-----NameNode与Secondary NameNode
一、NameNode的元数据存储在哪里? 1、NameNode的元数据如果存在内存中,如果断电,会造成数据丢失,所以引入-----FsImage 2、然后如果元数据更新频率过多,效率过低,而且断电依然会造成数据丢失,所以引用----Edit文件(追加效率很高,每当元数据更新,修改元数据) 3、这样,NameNode就必须经常进行FsImage和Edit文件的合并,这样效率过低,所以引用了Secondary NameNode辅助NameNode进行备份机制 二、NameNode的工作机制 1、第原创 2020-12-26 18:54:00 · 208 阅读 · 0 评论 -
HDFS(二)----数据读写流程
一、HDFS写入流程 1)客户端通过 Distributed FileSystem 模块向NameNode请求上传文件,NameNode检查目标文件是否已存在,父目录是否存在 2)NameNode返回是否可以上传 3)客户端请求第一个Block上传到哪几个DataNode服务器上 4)NameNode返回三个DataNode节点,分别为dn1、dn2、dn3 5)NameNode通过FSDataOutputStream模块请求dn1上传数据,dn1收到请求会继续调用dn2,然后dn2调用dn3原创 2020-12-25 17:21:47 · 133 阅读 · 0 评论 -
HDFS(一)----概述以及常用命令总结
一、HDFS使用场景 适合一次写入、多次读出的场景,且不支持文件的修改,适合用来做数据分析。 二、HDFS的优缺点分析 1、优点 高容错性:数据自动保存多个副本,通过增加副本的形式,提高容错性;某一个副本丢失后,它可以自动恢复 适合处理大数据:适合处理甚至PB级别的数据,百万规模以上的文件数量 可构建在廉价机器上,多副本机制,提高可靠性 2、缺点 不适合低时延数据访问,比如毫秒级别的存储数据 无法对大量小的文件进行存储:NameNode的内存优先,小文件存储的寻址时间会超...原创 2020-12-25 13:08:13 · 260 阅读 · 0 评论 -
Hadoop伪分布式测试集群搭建总结
导语:Hadoop的搭建有三种方式,单机版适合开发调试;伪分布式版,适合模拟集群学习;完全分布式,生产使用的模式。因为我的电脑带不动三个虚拟机,所以没办法搭建三个节点的完全分布式集群,所以本文主要记录Hadoop伪分布式测试集群的搭建过程! 基于centos7+Hadoop2.7.5 一、安装虚拟机,以及配置centos7镜像,基本步骤省略,主要介绍相关网络配置 1、虚拟机编辑网络为以下模式 VMnet8IP地址:192.168.83.2 2、进入虚拟机,ip addr查看分配的ip地址原创 2020-12-24 13:16:54 · 893 阅读 · 1 评论 -
Hadoop入门
一、大数据业务基本工作流程 数据源->数据采集->数据分析(Hdfs、ES、Hbase)->数据分析(MapReduce、Hive、Spark)->数据存储(关系型数据库)->页面读取展示 二、为什么使用Hadoop 1、为什么使用? 开源、java语言、跨平台、商用硬件、分布式、集群 2、优缺点分析 hadoop是一个开源的大数据框架,分布式计算的解决方案,两个核心解决了数据存储问题(HDFS分布式文件系统)和分布式计算问题(MapReduce)。 优点:...原创 2020-12-10 16:34:26 · 103 阅读 · 0 评论