6.HDFS
文章平均质量分 63
HDFS是分布式文件系统,一种独特的存储文件系统,适用与Hadoop。
SuperBigData~
大数据行业热爱者,欢迎交流学习,共同进步
展开
-
1.大数据之路
初识大数据什么是大数据 大数据(BIG DATA),指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产 最小的基本单位是bit,按顺序给出所有单位:bit、Byte、KB、MB、...原创 2019-08-21 16:51:20 · 579 阅读 · 1 评论 -
2.Hadoop的起源与知识背景
1大数据的定义 大数据(Big Data), 又称为巨量资料,指无法在一定时间范围内用常规软件工具进行捕授,管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、增长率和多样化的信息资产。 大数据由巨型数据集组成,这些数据集大小常超出入类在可接受时间下的收集、管理和处理能力。大数据的大小经常改变,截至2012年, 单...原创 2020-01-14 18:55:12 · 849 阅读 · 1 评论 -
3.HDFS 框 架 体 系
1.概念:HDFS,是一个分布式文件系统,全名:Hadoop Distributed File System. 用来存储文件,通过目录树结构。HDFS是在linux系统下搭建的:1.相同之处,比如跟目录都是 / ,看着差不多(仅相同) 2. 不同之处,底层不一样。可以由许多服务器联合到一起实现分布式文件存储,而且集群中的服务器有各自的角色。 ...原创 2019-09-28 14:52:33 · 403 阅读 · 1 评论 -
4.HDFS详细简介
认识自己,降伏自己,改变自己,才能改变别人。HDFS详细简介一.介绍二.假设与目标1.硬件故障2.流数据访问3.大数据集4.简单一致性模型5.“移动计算比移动数据便宜”6.跨异构硬件和软件平台的可移植性三.NameNode和DataNodes四.NameNode和DataNodes五.文件系统命名空间六.资料复制1.复制品放置:第一步2.副本选择3.安全模式七.文件系统元数据的持久性八.通讯协议九.坚固性1.数据磁盘故障,心跳和复制2.集群再平衡3.数据的完整性4.元数据磁盘故障5.快照十.资料组织1.原创 2020-07-29 12:30:01 · 311 阅读 · 0 评论 -
5.HDFS写文件刨析(从本地文件上传到HDFS上)
A:HDFS的写数据流程:多画图有助于自己深刻的理解1)客户端向namenode请求上传文件,namenode检查目标文件是否已存在,父目录是否存在。2)namenode返回是否可以上传。3)客户端请求第一个 block上传到哪几个datanode服务器上。(根据网络拓扑概念)4)namenode返回3个datanode节点,分别为dn1、dn2、dn3。...原创 2019-10-05 23:01:59 · 1069 阅读 · 1 评论 -
6.HDFS文件上传和下载API
HDFS文件上传和下载APIpackage hdfsAPI;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.*;import org.apache.hadoop.io.IOUtils;import org.junit.Te...原创 2019-08-26 19:02:46 · 870 阅读 · 1 评论 -
7.HDFS的API
1.HDFS文件的上传下载,不只用命令可以,其实代码也可以,而且代码的优先级更高2.下面是针对于出识写代码,总结自己学习中碰到的问题,以及问题出现的原因:3.下面就是解决方法:找到自己windows下自己的hosts给配上路径: C:\Windows\System32\drivers\etc然后找到hosts文件:进行hosts文件修改:...原创 2019-10-01 18:53:39 · 378 阅读 · 1 评论 -
8.HDFS读文件刨析(从HDFS文件上下载到本地)
从本地下载HDFS文件1)客户端向namenode请求下载文件,namenode通过查询元数据,找到文件块所在的datanode地址。2)挑选一台datanode(就近原则,然后随机)服务器,请求读取数据。3)datanode开始传输数据给客户端(从磁盘里面读取数据放入流,以packet为单位来做校验)。4)客户端以packet为单位接收,先在本地缓存,然后写入目标...原创 2019-10-06 17:26:31 · 922 阅读 · 1 评论 -
9.定位读取HDFS文件
1.文件从hdfs下载下面来回顾回顾,出现的尴尬问题:这个问题,出现的原因就是从hdfs下载到本地,不能后面直接跟一个目录,必须记得写一个名。@Test public void getFileHdfs1() throws URISyntaxException, IOException, InterruptedException { Con...原创 2019-10-02 18:36:15 · 637 阅读 · 1 评论 -
10.HDFS 集群间数据拷贝 和元数据归档解档
A:scp实现两个远程主机之间的文件复制:推的命令: 把111上的user文件 推到 112的家目录下 命令 目录必须加 -r, 是文件则不用加[root@bigdata111 ~]# scp -r user root@bigdata112:/root/itstar ...原创 2019-10-08 23:41:10 · 785 阅读 · 1 评论 -
11.HDFS小文件优化方法
HDFS小文件弊端HDFS上每个文件都要在namenode上建立一个索引,这个索引的大小约为150byte,这样当小文件比较多的时候,就会产生很多的索引文件,一方面会大量占用namenode的内存空间,另一方面就是索引文件过大是的索引速度变慢。解决方案1)Hadoop Archive:是一个高效地将小文件放入HDFS块中的文件存档工具,它能够将多个小文件打包成一个HAR文件(归...原创 2019-11-24 15:30:07 · 310 阅读 · 1 评论 -
12.IDEA和MAVEN配置
1.IDEA环境准备 我的在D盘找到这个文件 D:\maven\apache-maven-3.5.4\conf\settings.xml : 这个文件的作用就是maven下载的jar包存放的位置。(一般不会改了,创建成功后) maven可以在网上直接下载然后添加到 D:\maven\apache-maven-3.5.4\conf\settings.xml 文件...原创 2019-09-29 15:54:07 · 1191 阅读 · 1 评论 -
13.下载文件命令
下载文件命令:1.首先要安装一个上传和下载的命令:yum -y install lrzsz2. sz 是直接下载到windows中(aa是在当前目录的文件)sz aa3.rz是从windows下载到linux中...原创 2019-10-07 11:42:48 · 1150 阅读 · 0 评论 -
14.DataNode的工作原理
DataNode的工作原理:流程图1)一个数据块在datanode上以文件形式存储在磁盘上,包括两个文件,一个是数据本身,一个是元数据包括数据块的长度,块数据的校验和,以及时间戳。2)DataNode启动后向namenode注册,通过后,周期性(1小时)的向namenode上报所有的块信息。3)心跳是每3秒一次,心跳返回结果带有namenode给该datanode的命...原创 2019-10-08 14:42:20 · 661 阅读 · 1 评论 -
15.集群中 快照管理
快照相当于对目录做一个备份。并不会立即复制所有文件,而是指向同一个文件。当写入发生时,才会产生新文件。1)基本语法 (1)hdfs dfsadmin -allowSnapshot 路径 (功能描述:开启指定目录的快照功能) (2)hdfs dfsadmin -disallowSnapshot 路径 (功能描述:禁用指定目录的快照功能,默认是禁用)...原创 2019-10-09 15:57:53 · 1213 阅读 · 1 评论 -
16.集群中的回收站配置
默认回收站默认值fs.trash.interval=0,0表示禁用回收站,可以设置删除文件的存活时间。默认值fs.trash.checkpoint.interval=0,检查回收站的间隔时间。要求fs.trash.checkpoint.interval<=fs.trash.interval。比如:一个人犯罪了,法官判入狱3年,如果监狱里面没有狱警,时间到了,谁知道这个人的时间...原创 2019-10-09 23:00:35 · 444 阅读 · 1 评论 -
17.集群进入安全模式
集群进入安全模式概述Namenode启动时,首先将映像文件(fsimage)载入内存,并执行编辑日志(edits)中的各项操作。一旦在内存中成功建立文件系统元数据的映像,则创建一个新的fsimage文件和一个空的编辑日志。此时,namenode开始监听datanode请求。但是此刻,namenode运行在安全模式,即namenode的文件系统对于客户端来说是只读的。系统中的数据块的位置并不...原创 2019-10-07 17:23:59 · 552 阅读 · 1 评论 -
18.网络拓扑
在本地网络中,两个节点被称为“彼此近邻”是什么意思?在海量数据处理中,其主要限制因素是节点之间数据的传输速率——带宽很稀缺。这里的想法是将两个节点间的带宽作为距离的衡量标准。 节点距离:两个节点到达最近的共同祖先的距离总和。例如,假设有数据中心d1机架r1中的节点n1。该节点可以表示为/d1/r1/n1。利用这种标记,这里给出四种距离描述。Distance(/d1/r1/n...原创 2019-10-06 13:01:24 · 330 阅读 · 1 评论 -
19.为什么配置文件配置完成,启动进程,DataNode进程现实没有
1.为什么配置文件配置完成,启动进程,DataNode进程现实没有这个问题如果没有方法,会很头疼。自己发现所有的文件都配置成功,在web页面还是看不到,其余俩个DataNode节点。 下面来说下,解决方案:[root@bigdata111 ~]#cd /opt/module//hadoop/tmp/dfs 下的datanode与namenode中的VERSION...原创 2019-10-14 23:42:57 · 605 阅读 · 1 评论 -
20.NameNode内容配置信息
chkpoint检查时间参数设置(1)通常情况下,SecondaryNameNode每隔一小时执行一次。 [hdfs-default.xml] <property> <name>dfs.namenode.checkpoint.period</name> <value>3600</value&...原创 2019-10-07 14:06:03 · 1502 阅读 · 1 评论 -
21.用SecondaryNamenode手动恢复NameNode的元数据
1.SecondaryNameNode目录结构Secondary NameNode用来监控HDFS状态的辅助后台程序,每隔一段时间获取HDFS元数据的快照。在/opt/module/hadoop-2.8.4/data/dfs/namesecondary/current这个目录中查看SecondaryNameNode目录结构。 edits_0000000000000000001-0...原创 2019-10-07 16:38:04 · 1332 阅读 · 1 评论 -
22.NameNode&Secondary NameNode工作机制
NameNode&Secondary NameNode工作机制图解:第一阶段:namenode启动(1)第一次启动namenode格式化后,创建fsimage和edits文件。如果不是第一次启动,直接加载编辑日志(edits)和镜像文件(fsimage)到内存(2)客户端对元数据进行增删改的请求(3)namenode记录操作日志,更新滚动日志(4)nameno...原创 2019-10-06 23:08:16 · 369 阅读 · 1 评论 -
23.操作HDFS报java.lang.NullPointerException
1.项目场景:在IDEA里面编写Code,在HDFS上来创建一个目录。2.源代码: //c/s @Before public void conn() throws Exception { Configuration conf = new Configuration(true); FileSystem fs = FileSystem.get(conf); //FileSystem fs = FileSystem.get(java.net原创 2021-09-29 18:08:27 · 1170 阅读 · 0 评论