0 版本匹配
hadoop2.7.4
hbase2.1.0
hive2.0.0
jdk1.8.0_181
scala-2.11.8
spark-2.1.2
1. 三种安装方式
单机、伪分布、完全分布
前提条件
JAVA_HOME、HADOOP_HOME、PATH、CLASSPATH
1.1 ssh相关
https://www.jianshu.com/p/e427125b1c72
免密码登陆,只需要将公钥上传到服务器就行
- 本地生成
$ ssh-keygen -t rsa -f /Users/user/.ssh/rsa_vps/id_rsa_remote -C "user@domain.com"
$ ls id_rsa_remote
id_rsa_remote id_rsa_remote.pub
- 将公钥上传到服务器.ssh目录下
$ scp id_rsa_vps.pub root@123.456.789.123:~/.ssh/
- 最后在远程服务器上将公钥内容追加到 ~/.ssh/authorized_keys 文件中
cat id_rsa.pub >> authorized_keys
scp 远程文件传送
eg: scp id_rsa_vps.pub root@114.232.121.12:~/.ssh/
1.2 一些配置文件
hadoop-env.sh: Hadoop环境变量设置
core-site.xml:主要完成NameNode的IP和端口设置
hdfs-site.xml:主要完成HDFS的数据块副本等参数设置
yarn-site.xml :完成ResouceManager的主机名和服务等配置
mapred-site.xml:主要完成mapreduce framework设置和jobhistory
hadoop系统,分布式文件系统hdfs、分布式数据管理Hbase、MapReduce计算框架
HDFS
- 相关概念
namenode 主节点
secondaryNameNode 备份节点
datanode
yarn资源管理相关
其它的知识点
Yarn
源码组织
Java MapReduce作业提交所包含的内容
作业在Hdfs上的分布情况
所涉及到的设计模型
- 单一工厂模式,理解就为静态变量
- 观察者设计模式,就是发布-订阅模式
- 监听模式
- 切片模式