BigData（八）：HDFS

美杜莎2018

已于 2024-05-07 17:59:50 修改

阅读量1.4k

点赞数 28

文章标签：大数据 hdfs hadoop

于 2024-05-07 17:59:44 首次发布

本文链接：https://blog.csdn.net/lsy131416/article/details/80320726

版权

Hadoop的官网：http://hadoop.apache.org/
简单介绍一哈子Hadoop的模块（部分）：

Hadoop common: 公共包，是支持其他Hadoop模块的常用工具！
HDFS:分布式的文件系统！它可以是集群部署哦，多台服务器一个盘的效果，可提供对应用程序数据的高吞吐量访问。
Yarn: 作业调度和集群资源管理的框架。
MapReduce: 并发处理大型数据集的基于Yarn的系统，人话就是，yarn调度它进行计算（业务操作）。
Hbase: 分布式的数据库，面向列的存储系统。
Hive: 用来算是简化MapReduce的东西，用HiveQL操作HDFS上面的数据计算（业务操作）。
Pig: 用于并行计算的高级数据流语言和执行框架。

对于Hadoop,我目前只想记录以上这些！

HDFS:
先看我的工作win7的盘：
这里写图片描述
家里的win7的盘：

这里写图片描述

我们见过的文件一般最大几个G吧，一般是安装的软件包，比如CentOS或者LOL，但是，我们的企业开发中，往往一个日志文件就好几个T (1T = 1024G), 我们还要打开这个文件进行提取里面的数据，最后进行分析！想想就有点崩溃，这个时候，如果我们可以把这个文件切割一哈子，分成若干份，比如1024份，那么每个小文件，不就是1G了吗，我把每个小文件都分别丢给一台服务器进行分析，最终把结果汇总，这样是不是觉得这个方案很不错了！HDFS就是把多台服务器进行集群，文件存储的时候，是以块的形式分布在整个集群里面，只要HDFS自己记得每块东西在那里，我们管HDFS要就行了。（业务计算是MapReduce来干，Yarn负责分配任务和资源）。

配置启动HDFS:（Hdfs的nameNode和dataNode后面讲）
之前编译好的Hadoop都是在root下面的东西，现在，我要放给Hadoop这个用户来进行操作了！
用户登录，并把Hadoop移动到用户的目录，然后通过root修改权限和拥有者，最后修改/etc/profile里面的hadoop的环境变量！
修改权限和所有者，这里自己去搜。
我的hadoop目录是 :
这里写图片描述

误操作，把所有东西都删掉了，Xshell同一个窗口操作！告诫自己：备份的好处，幸好自己不懒，不然重新编译了！
目前，我们只配置Hdfs的参数：
在 ./hadoop-2.6.4/etc/hadoop/ 这个目录里面全是配置文件！
vim ./core-site.xml 添加：
这里写图片描述

vim ./hdfs-site.xml:
这里写图片描述

之后来到sbin目录下面： ./hadoop-daemon.sh start namenode
如果报错jdk找不到，那就修改：hadoop-env.sh里面的jdk路径，我之前没改没错，这次要改

启动之后，如果要你输入密码，你就输入root的密码，因为我是root登录，，查看：jps
守护进程启动的：
这里写图片描述

这里是启动成功了！我win上，输入：192.168.187.132:50070
这里会无法访问，如果访问成功将是下面这个：

这里写图片描述

现在说说，访问不了的原因：防火墙！

HDFS：

HDFS在物理机上是分块存储的，块的大小默认是128M, 直觉告诉我们，这个既然是默认值，我们就可以修改，Hdfs提供了参数（dfs.blocksize）进行修改，如果不提供，我们改源码的这个默认值也是可以的！只是，既然人家指定了这个默认值，那就不要随意更改，肯定人家是觉得这个值是最好的选择，这个东西大小，影响什么，很明显！
HDFS：HDFS里面的数据，只允许读，目前是不允许改的！HDFS会提供给我们一个树类型的目录。我们可以通过他给我们的前端页面，查看文件！
在我们的132服务器上面是 nameNode,它负责管理和记录文件和分块，它不存储文件！在dataNode上面，才是存储文件的！将hadoop整个复制到其他机器上面，然后启动hdfs，如下：