自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(11)
  • 收藏
  • 关注

原创 HDFS元数据辅助管理

当 Hadoop 的集群当中, NameNode的所有元数据信息都保存在了FsImage 与 Eidts 文件当中这两个文件就记录了所有的数据的元数据信息, 元数据信息的保存目录配置在了hdfs-site.xml文件中。

2024-04-25 17:06:17 521 1

原创 HDFS 文件读取过程

文件写入过程是找到可以存储文件block的DataNode服务器,以便进行文件block的存储。文件读取过程是找到所需读取文件block所在的服务器DataNode,以便读取文件block。hdfs文件读取过程和 上期讲的hdfs文件写入过程相反。

2024-04-25 09:17:55 144 1

原创 HDFS文件写入过程

当blk1上传完成之后,开始上传blk2,然后blk3。

2024-04-24 10:59:30 439

原创 hdfs的命令行使用

以上内容仅为学习记录,如若发现问题请大家补充指正,一起学习一起记录一起进步!超全hdfs命令,包含使用案例。

2024-04-22 10:23:01 217

原创 HDFS的副本机制和机架感知

前两个副本存本机是因为在本机上读取很快,如果第一个副本宕机了,还是可以很快的使用第二个副本,但是如果第一台机架都坏了,那么第一和第二的副本都不能使用了,此时就要使用第三个副本,所以要将第三个副本存放到另外一台机架上。以上内容仅为个人学习记录,有错误请大家指出来,希望大家可以一起学习一起记录一起进步!1、一个文件有可能大于集群中的任何一个磁盘,引入块机制可以很好的解决这个问题。接着上一篇HDFS的组成部分继续记录,本篇主要记录HDFS的副本机制。所有的文件都是以block块的方式存放在HDFS文件系统当中,

2024-04-18 09:25:24 352 1

原创 Hadoop核心-HDFS的架构

全权管理数据块的复制,周期性的接受心跳和块的状态报告信息(包含该DataNode上所有数据块的列表)若接受到心跳信息,NameNode认为DataNode工作正 常,如果在10分钟后还接受到不到DN的心跳,那么NameNode认为DataNode已经宕机 ,这时候NN准备要把DN上的数据块进行重新的复制。因为文件的元数据都是存在namenode的内存中,所以一关机,元数据信息就会丢失,这时数据会定期保存到本地磁盘(就是fslmage文件和edits文件)并非NameNode的热备。

2024-04-17 09:14:19 533 1

原创 Hadoop核心-HDFS-适用场景

在现代的企业环境中,单机容量往往无法存储大量数据,需要跨机器存储。统一管理分布在集群上的文件系统称为分布式文件系统。HDFS(Hadoop Distributed File System)是Apache Hadoop项目的一个子项目。Hadoop非常适用于存储大型数据(比如TB和PB),其就是使用HDFS作为存储系统,HDFS使用多台计算机存储文件,并且提供统一的访问接口,像是访问一个普通文件系统一样使用分布式文件系统。

2024-04-16 18:01:36 365

原创 Hadoop安装

NppFTP -> settings->Profile settings->Add new -> 输入要连接的ip->hostname也输入要连接的ip->Connection Type选择SFTP->username输入root,然后输入密码->close->点击最左侧->就有刚刚连接的主机ip,点击就可以连接了,就可以看到该主机中的文件。注意:首次启动HDFS时,必须对其进行格式化操作,本质上是一些清理和准备工作,因为此时的HDFS在物理上还是不存在的。以上仅为本人学习记录,若有错误请指出!

2024-04-16 17:50:31 953

原创 hadoop介绍

狭义上hadoop指的是Apache的一款开源软件用java语言实现开源软件框架允许使用简单的编程模型跨计算机集群对大型数据集进行分布式处理Hadoop核心组件Hadoop HDFS(分布式文件存储系统):解决海量数据存储Hadoop YARN(集群资源管理和任务调度框架):解决资源任务调度Hadoop MapReduce(分布式计算框架):解决海量数据计算广义上Hadoop指的是围绕Hadoop打造的大数据生态圈Hadoop狭义上指软件,广义上指生态圈。

2024-02-05 17:37:04 466 1

原创 分布式技术

当活动的服务或应用意外终止时,快速启用冗余或备用的服务器、系统、硬件或者网络接替它们工作。故障转移系统也称为容错系统,所谓容错指的是可以容忍错误的发送。故障转移的核心是设置备份 出现故障时 主备切换。业务低峰期、减少服务器。对于系统的用户来说,就像是一台计算机在提供在提供服务样。仅为记录学习过程,如有不正确的地方,请大佬多多指点。因此口语中混淆两者概念的时候都是相对于单机来说的。(1)分布式、集群的共同点是:多台机器。多台机器,每台机器上部署不同组件。多台机器,每台机器上部署相同组件。

2024-02-05 17:29:31 230 1

原创 大数据基础入门

大数据基础学习路线

2022-02-08 11:37:14 1445

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除