HDFS

HDFS是Hadoop分布式文件系统,用于解决大数据存储和管理问题。其特点是分布式、高容错性,适合批处理和存储大文件。文章介绍了HDFS的安装、常用命令、架构,包括NameNode、DataNode、Block、Rack Awareness等,并详细阐述了HDFS的读写流程。
摘要由CSDN通过智能技术生成

概述

hdfs(Hadoop Distribute File System)是分布式文件系统,分布式文件系统是指文件系统管理的物理存储资源不一定直接链接在本地节点上,而是通过计算机网络与节点相连,可让多机器上的多用户分享文件和存储空间

分布式文件系统的特点:

  1. 分布式文件系统可以有效解决大数据的存储和管理难题
  2. 将固定于某个地点的某个文件系统,扩展到任意多个地点/多个文件系统
  3. 众多的节点组成一个文件系统网络
  4. 每个节点可以分布在不同的地点,通过网络进行节点间的通信和数据传输
  5. 在使用分布式文件系统时,无需关心数据是存储在哪个节点上、或者是从哪个节点获取的,只需要像使用本地文件系统一样管理和存储文件系统中的数据

HDFS优势

  • 可构建在廉价机器上,设备成本相对低
  • 高容错性,HDFS将数据自动保存多个副本,副本丢失以后,自动回复,防止数据丢失或者损坏
  • 适合批处理,HDFS适合一次写入、多次查询(读取)的情况,适合在已有的数据进行多次分析,稳定性好
  • 适合存储大文件,其中的大表示可以存储单个大文件,因为是分块存储,以及表示可以存储大量的数据

HDFS劣势

  • 由于提高了吞吐量,所以降低了实时性
  • 由于每个文件都会在namenode中记录元数据,如果存储了大量的小文件,会对namenode造成很大的压力
  • 不合适小文件处理,在mapreduce的过程中小文件的数量会造成map数量的增大,导致资源被占用,而且速度慢。
  • 不适合文件的修改,文件只能追加在文件的末尾,不支持任意位置修改,不支持多个写入者操作

安装

  • Java环境
  • 修改主机名称
# centos7 里面修改hostname的方式有所改变,修改/etc/hosts和/etc/sysconfig/network两个文件已经不能生效。使用的新命令是:
# 修改主机名 
[root@localhost ~]# hostnamectl set-hostname Hadoop
# 重启主机
[root@localhost ~]# reboot

[root@Hadoop ~]# vi /etc/hosts
127.0.0.1   localhost localhost.localdomain localhost4 localhost4.localdomain4
::1         localhost localhost.localdomain localhost6 localhost6.localdomain6

192.168.11.20 Hadoop
  • 关闭防火墙
# 查看防火墙状态
[root@Hadoop ~]# systemctl status firewalld
# 关闭防火墙
[root@Hadoop ~]# systemctl stop firewalld
# 关闭开启自启
[root@Hadoop ~]# systemctl disable firewalld
  • ssh免密登录
[
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值