hadoop知识介绍（hdfs，mapreduce，hdfs本地模式的使用）

最新推荐文章于 2023-09-12 18:54:08 发布

VIP文章俶尔乘风_御青空

最新推荐文章于 2023-09-12 18:54:08 发布

阅读量385

点赞数 1

分类专栏：大数据

本文链接：https://blog.csdn.net/qq_40147985/article/details/110293511

版权

一、hadoop的安装
* hadoop运行的前提是本机安装了JDK，配置JAVA_HOME环境变量
* 在Hadoop中启动多个不同类型的进程

	* 例如，NN，DN，RM，NM，这些进程需要通信
	* 在通信时，常用主机名进行通信
	* 例如，在192.168.6.100机器上的DN进程，希望访问192.168.6.104机器上的NN进程！

		* 需要在集群的每台机器上，需要配置集群中所有机器的host映射！
		* 配置：

			* Linux： /etc/hosts
			* windows：C:\Windows\System32\drivers\etc\hosts
		* 不配置会报错：

			* 找不到主机
			* DNS映射异常，HOST映射异常
* 注意权限，hadoop在运行时需要产生很多的数据（日志），数据的保存目录，必须让当前启动hadoop的用户拥有写权限。
* hadoop目录下最常用的两个命令：sbin、hadoop


* hadoop的目录介绍：

	* bin：使用HDFS和MR时常用的目录

		* 常用hadoop命令！
	* sbin：管理员启动和停止集群使用的命令！
	* etc：hadoop配置文件所在的目录


* hadoop环境变量的配置：

	* 进入/etc/profile目录打开，xshell允许多个连接同时连接一个主机
	* 配置完成之后使用source /etc/profile进行更新

二、hadoop知识点：1、hadoop的初衷是采用大量廉价的机器，组成一个集群！完成大数据的存储和计算。
* 机器比较慢，换硬件是最直接的，比如自行车换成汽车。
*
* 四大特性：

	* 高可靠性：一份数据会保存在多个机器，即便一个节点坏了不会对整体数据造成影响。
	* 高扩展性： 如果现在只有三台机器，不够用，但是可以向集群中再加新机器，而且非常方便，只需要安装一下hadoop，做一下简单的配置即可。
	* 高效性：在做大数据的计算时，是用MR（MapReduce）编程模型进行的，MR在map阶段都是并行运行的，可以加快任务的处理速度。
	* 高容错性：MapReduce阶段将一个大的任务拆分成了很多的小的任务，多个任务同时在不同的机器进行运算了，运行结束后再把他们并行运算的结构合并ÿ

最低0.47元/天解锁文章

俶尔乘风_御青空

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
hadoop知识介绍（hdfs，mapreduce，hdfs本地模式的使用）

一、hadoop的安装* hadoop运行的前提是本机安装了JDK，配置JAVA_HOME环境变量* 在Hadoop中启动多个不同类型的进程 * 例如，NN，DN，RM，NM，这些进程需要通信 * 在通信时，常用主机名进行通信 * 例如，在192.168.6.100机器上的DN进程，希望访问192.168.6.104机器上的NN进程！ * 需要在集群的每台机器上，需要配置集群中所有机器的host映射！ * 配置： * Linux： /etc/hosts * windows：
复制链接

扫一扫