推荐新手阅读
先说感想,建立个大数据的文件目录,以后所有大数据程序都放里面,一台机器配置好以后只要把整个目录复制到其他服务器上就行了。
大数据产品不要图最新版本,1不稳定,2不同产品之间有版本约束。
例如:不同产品不同版本都对jdk有要求。
hadoop:依赖jdk
spark:依赖jdk,hadoop,scala
hive:依赖jdk,hadoop,mysql
hbase:依赖jdk,hadoop
kylin:依赖jdk,hadoop,hive,hbase
kylin,hive,hbase如果计算不用hadoop的mapreduce而用速度快100倍的spark,自然对spark版本也有依赖。
这种版本环环相扣口,走了不少坑,一般取1年前的产品版本即可,对应的教程也多也稳定。
仅仅应用层面的话,其实就是各产品修改配置文件,并复制到各个服务器上就完成软件搭建了。
但是每个产品其实都有命令和调试案例,这个是不能忽略的。
凡是目前使用的大数据产品都在特定条件下有着特殊处理能力,没必要把实际中产品都用上,还是按项目需求来看。越复杂的架构,运维工作量也越高,每个产品都是一本书啊。
1、修改环境变量
/etc目录修改hosts,添加如下内容
172.16.2.147 Master 172.16.2.148 Slave1 172.16.2.149 Slave2 |
通过命令修改hostname
hostname Master hostname Slave1 hostname Slave2 |
2、ssh无密互联
Master\Slave1\Slave2分别生成密钥
ssh-keygen -t rsa -P "" cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys |
Slave1
cd /root/.ssh scp id_rsa.pub root@Master:/root/.ssh/id_rsa.pub.Slave1 |
Slave2
cd /root/.ssh scp id_rsa.pub root@Master:/root/.ssh/id_rsa.pub.Slave2 |
Master
cd /root/. |