hadoop知识介绍(hdfs,mapreduce,hdfs本地模式的使用)

一、hadoop的安装
* hadoop运行的前提是本机安装了JDK,配置JAVA_HOME环境变量
* 在Hadoop中启动多个不同类型的进程

	* 例如,NN,DN,RM,NM,这些进程需要通信
	* 在通信时,常用主机名进行通信
	* 例如,在192.168.6.100机器上的DN进程,希望访问192.168.6.104机器上的NN进程!

		* 需要在集群的每台机器上,需要配置集群中所有机器的host映射!
		* 配置:

			* Linux: /etc/hosts
			* windows:C:\Windows\System32\drivers\etc\hosts
		* 不配置会报错:

			* 找不到主机
			* DNS映射异常,HOST映射异常
* 注意权限,hadoop在运行时需要产生很多的数据(日志),数据的保存目录,必须让当前启动hadoop的用户拥有写权限。
* hadoop目录下最常用的两个命令:sbin、hadoop


* hadoop的目录介绍:

	* bin:使用HDFS和MR时常用的目录

		* 常用hadoop命令!
	* sbin:管理员启动和停止集群使用的命令!
	* etc:hadoop配置文件所在的目录


* hadoop环境变量的配置:

	* 进入/etc/profile目录打开,xshell允许多个连接同时连接一个主机
	* 配置完成之后使用source /etc/profile进行更新

二、hadoop知识点:1、hadoop的初衷是采用大量廉价的机器,组成一个集群!完成大数据的存储和计算。
* 机器比较慢,换硬件是最直接的,比如自行车换成汽车。
*
* 四大特性:

	* 高可靠性:一份数据会保存在多个机器,即便一个节点坏了不会对整体数据造成影响。
	* 高扩展性: 如果现在只有三台机器,不够用,但是可以向集群中再加新机器,而且非常方便,只需要安装一下hadoop,做一下简单的配置即可。
	* 高效性:在做大数据的计算时,是用MR(MapReduce)编程模型进行的,MR在map阶段都是并行运行的,可以加快任务的处理速度。
	* 高容错性:MapReduce阶段将一个大的任务拆分成了很多的小的任务,多个任务同时在不同的机器进行运算了,运行结束后再把他们并行运算的结构合并ÿ
  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值