hadoop
hadoop框架
Songzhɑng ✪
希望我自己可以进步,也可以帮助别人
展开
-
HDFS-第6章 DataNode
6.1 工作机制1)一个数据块在DataNode上以文件形式存储在磁盘上,包括两个文件,一个是数据本身,一个是元数据包括数据块的长度,块数据的校验和,以及时间戳。2)DataNode启动后向NameNode注册,通过后,周期性(1小时)的向NameNode上报所有的块信息。3)心跳是每3秒一次,心跳返回结果带有NameNode给该DataNode的命令如复制块数据到另一台机器,或删除某个数据块。如果超过10分钟没有收到某个DataNode的心跳,则认为该节点不可用。4)集群运行中可以安全原创 2020-07-19 17:06:11 · 156 阅读 · 0 评论 -
HDFS-第5章 NameNode和SecondaryNameNode
5.1 NN和2NN工作机制思考:NameNode中的元数据是存储在哪里的? 首先,我们做个假设,如果存储在NameNode节点的磁盘中,因为经常需要进行随机访问,还有响应客户请求,必然是效率过低。因此,元数据需要存放在内存中。但如果只存在内存中,一旦断电,元数据丢失,整个集群就无法工作了。因此产生在磁盘中备份元数据的FsImage。 这样又会带来新的问题,当在内存中的元数据更新时,如果同时更新FsImage,就会导致效率过低,但如果不更新,就会发生一致性问题,一旦NameNod...原创 2020-07-19 09:31:23 · 125 阅读 · 0 评论 -
HDFS-第4章 HDFS的数据流
4.1 HDFS写数据流程4.1.1剖析文件写入1)客户端通过Distributed FileSystem模块向NameNode请求上传文件,NameNode检查目标文件是否已存在,父目录是否存在。2)NameNode返回是否可以上传。3)客户端请求第一个 Block上传到哪几个DataNode服务器上。4)NameNode返回3个DataNode节点,分别为dn1、dn2、dn3。5)客户端通过FSDataOutputStream模块请求dn1上传数据,dn1收到请求会继.原创 2020-07-19 08:48:19 · 132 阅读 · 0 评论 -
HDFS-第3章HDFS客户端操作
3.1 客户端环境准备1. 根据自己电脑的操作系统拷贝对应的编译后的hadoop jar包到非中文路径(例如:D:\Develop\hadoop-2.7.2)2. 配置HADOOP_HOME环境变量3. 配置Path环境变量4. 创建一个Maven工程5.导入相应的依赖坐标+日志添加//pom.xml<dependencies> <dependency> <groupId>junit</groupId> <ar原创 2020-07-19 08:05:02 · 189 阅读 · 0 评论 -
HDFS-第2章HDFS的Shell操作
常用命令实操:(0)启动Hadoop集群sbin/start-dfs.sh sbin/start-yarn.sh(1)-help:输出这个命令参数hadoop fs -help rm(2)-ls: 显示目录信息 hadoop fs -ls /(3)-mkdir:在HDFS上创建目录hadoop fs -mkdir -p /sanguo/shuguo(4)-moveFromLocal:从本地剪切粘贴到HDFStouch kongming....原创 2020-07-18 10:35:54 · 129 阅读 · 0 评论 -
HDFS-第1章概述
1.1 定义 hdfs是一个文件系统,用于存储文件,通过目录树来定位文件;其次,hdfs是分布式的,由很多台服务器联合起来实现功能。1.2 优缺点优点: 1)高容错性:数据自动保存多个副本;某一个副本丢失后,它可以自动恢复; 2)适合处理大数据:GB、TB级别的数据; 3)可构建在廉价机器上,通过多副本机制,提高可靠性。缺点: 1)不适合低延时数据访问,比如毫秒级别的存储数据,是无法做到的; 2)无法高效的对大量小文件进行存储:一般会采...原创 2020-07-18 10:07:31 · 99 阅读 · 0 评论 -
3.运行hadoop案例(完全分布模式)
1)虚拟机克隆:hadoop01、 hadoop02、 hadoop032)编写集群分发脚本xsync(a)脚本编写#!/bin/bash#1 获取输入参数个数,如果没有参数,直接退出pcount=$#if((pcount==0)); thenecho no args;exit;fi#2 获取文件名称p1=$1fname=`basename $p1`echo fname=$fname#3 获取上级目录到绝对路径pdir=`cd -P $(dirname $p1);原创 2020-07-05 10:09:03 · 172 阅读 · 0 评论 -
3.运行hadoop案例(本地模式、伪分布模式)
Hadoop运行模式包括:本地模式、伪分布式模式以及完全分布式模式。Hadoop官方网站:http://hadoop.apache.org/1.本地模式1)创建在hadoop-2.7.2文件下面创建一个wcinput文件夹2)在wcinput文件下创建一个wc.input文件3)编辑wc.input文件4)回到Hadoop目录/opt/module/hadoop-2.7.2,并且执行程序(此时输出文件夹必须没有,不然会报错)hadoop jar share/hadoop/map原创 2020-07-05 09:16:13 · 171 阅读 · 0 评论 -
2.hadoop目录结构
bin:存放对Hadoop相关服务(HDFS,YARN)进行操作的脚本etc:Hadoop的配置文件目录,存放Hadoop的配置文件includelib:存放Hadoop的本地库libexecLICENSE.txtNOTICE.txtREADME.txtsbin:存放启动或停止Hadoop相关服务的脚本share:存放Hadoop的依赖jar包、文档、和官方案例...原创 2020-07-05 08:41:07 · 98 阅读 · 0 评论 -
1.hadoop运行环境搭建
1.克隆虚拟机(创建完整克隆)2.修改克隆虚拟机的静态IP地址3.修改主机名称和hosts文件4.关闭防火墙5.在/opt目录下创建文件夹software和module6.安装JDK检查是否安装了jdk:rpm -ga|grep-java如果jdk版本小于1.7应该卸载:java -version;rpm -e 软件包1)首先把jdk通过ftp工具导入linux,放入software文件夹2)解压tar.gztar -zxvf jdk-8u1原创 2020-07-05 08:36:23 · 104 阅读 · 0 评论