文章目录
概述
hdfs(Hadoop Distribute File System)是分布式文件系统,分布式文件系统是指文件系统管理的物理存储资源不一定直接链接在本地节点上,而是通过计算机网络与节点相连,可让多机器上的多用户分享文件和存储空间
分布式文件系统的特点:
- 分布式文件系统可以有效解决大数据的存储和管理难题
- 将固定于某个地点的某个文件系统,扩展到任意多个地点/多个文件系统
- 众多的节点组成一个文件系统网络
- 每个节点可以分布在不同的地点,通过网络进行节点间的通信和数据传输
- 在使用分布式文件系统时,无需关心数据是存储在哪个节点上、或者是从哪个节点获取的,只需要像使用本地文件系统一样管理和存储文件系统中的数据
HDFS优势
- 可构建在廉价机器上,设备成本相对低
- 高容错性,HDFS将数据自动保存多个副本,副本丢失以后,自动回复,防止数据丢失或者损坏
- 适合批处理,HDFS适合一次写入、多次查询(读取)的情况,适合在已有的数据进行多次分析,稳定性好
- 适合存储大文件,其中的大表示可以存储单个大文件,因为是分块存储,以及表示可以存储大量的数据
HDFS劣势
- 由于提高了吞吐量,所以降低了实时性
- 由于每个文件都会在namenode中记录元数据,如果存储了大量的小文件,会对namenode造成很大的压力
- 不合适小文件处理,在mapreduce的过程中小文件的数量会造成map数量的增大,导致资源被占用,而且速度慢。
- 不适合文件的修改,文件只能追加在文件的末尾,不支持任意位置修改,不支持多个写入者操作
安装
- Java环境
略 - 修改主机名称
# centos7 里面修改hostname的方式有所改变,修改/etc/hosts和/etc/sysconfig/network两个文件已经不能生效。使用的新命令是:
# 修改主机名
[root@localhost ~]# hostnamectl set-hostname Hadoop
# 重启主机
[root@localhost ~]# reboot
[root@Hadoop ~]# vi /etc/hosts
127.0.0.1 localhost localhost.localdomain localhost4 localhost4.localdomain4
::1 localhost localhost.localdomain localhost6 localhost6.localdomain6
192.168.11.20 Hadoop
- 关闭防火墙
# 查看防火墙状态
[root@Hadoop ~]# systemctl status firewalld
# 关闭防火墙
[root@Hadoop ~]# systemctl stop firewalld
# 关闭开启自启
[root@Hadoop ~]# systemctl disable firewalld
- ssh免密登录
[