一、hadoop的安装
* hadoop运行的前提是本机安装了JDK,配置JAVA_HOME环境变量
* 在Hadoop中启动多个不同类型的进程
* 例如,NN,DN,RM,NM,这些进程需要通信
* 在通信时,常用主机名进行通信
* 例如,在192.168.6.100机器上的DN进程,希望访问192.168.6.104机器上的NN进程!
* 需要在集群的每台机器上,需要配置集群中所有机器的host映射!
* 配置:
* Linux: /etc/hosts
* windows:C:\Windows\System32\drivers\etc\hosts
* 不配置会报错:
* 找不到主机
* DNS映射异常,HOST映射异常
* 注意权限,hadoop在运行时需要产生很多的数据(日志),数据的保存目录,必须让当前启动hadoop的用户拥有写权限。
* hadoop目录下最常用的两个命令:sbin、hadoop
* hadoop的目录介绍:
* bin:使用HDFS和MR时常用的目录
* 常用hadoop命令!
* sbin:管理员启动和停止集群使用的命令!
* etc:hadoop配置文件所在的目录
* hadoop环境变量的配置:
* 进入/etc/profile目录打开,xshell允许多个连接同时连接一个主机
* 配置完成之后使用source /etc/profile进行更新
二、hadoop知识点:1、hadoop的初衷是采用大量廉价的机器,组成一个集群!完成大数据的存储和计算。
* 机器比较慢,换硬件是最直接的,比如自行车换成汽车。
*
* 四大特性:
* 高可靠性:一份数据会保存在多个机器,即便一个节点坏了不会对整体数据造成影响。
* 高扩展性: 如果现在只有三台机器,不够用,但是可以向集群中再加新机器,而且非常方便,只需要安装一下hadoop,做一下简单的配置即可。
* 高效性:在做大数据的计算时,是用MR(MapReduce)编程模型进行的,MR在map阶段都是并行运行的,可以加快任务的处理速度。
* 高容错性:MapReduce阶段将一个大的任务拆分成了很多的小的任务,多个任务同时在不同的机器进行运算了,运行结束后再把他们并行运算的结构合并ÿ