感谢每一个认真阅读我文章的人,看着粉丝一路的上涨和关注,礼尚往来总是要有的:
① 2000多本Python电子书(主流和经典的书籍应该都有了)
② Python标准库资料(最全中文版)
③ 项目源码(四五十个有趣且经典的练手项目及源码)
④ Python基础入门、爬虫、web开发、大数据分析方面的视频(适合小白学习)
⑤ Python学习路线图(告别不入流的学习)
网上学习资料一大堆,但如果学到的知识不成体系,遇到问题时只是浅尝辄止,不再深入研究,那么很难做到真正的技术提升。
一个人可以走的很快,但一群人才能走的更远!不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人,都欢迎加入我们的的圈子(技术交流、学习资源、职场吐槽、大厂内推、面试辅导),让我们一起学习成长!
scp ~/.ssh/authorized_keys slave2:~/.ssh
与此同时系统会让输入slave1主机和slave2主机hadoop用户的密码,这样ssh免密功能就配置好啦,可以在master上尝试 $ ssh slave1 命令 和 $ ssh slave2 命令进行验证是否为免密登录。
做完以上操作后系统的准备工作就做好了,但实际在操作主机时是不会真的在主机上操作,而通常是通过一个远程连接软件来操作主机的,那么我们就来使用XShell软件实现远程登录。
在各个节点的/home/用户名/目录下创建两个文件夹
mkdir software
mkdir servers
**修改Ubuntu时区**
**我选择的是上海的时区 可以修改为BeiJing 根据自己需要进行修改即可**
sudo timedatectl set-timezone Asia/Shanghai
在Master上:
上传jdk安装包到software,解压到servers
cd ~/software
tar -zxvf ./jdk-8u201-linux-x64.tar.gz -C ~/servers
mv jdk1.8.0_201 jdk
设置jdk环境变量
vi ~/.bashrc
添加如下代码
export JAVA_HOME=~/servers/jdk
export JRE_HOME=${JAVA_HOME}/jre
export CLASSPATH= J A V A H O M E / l i b / d t . j a r : {JAVA_HOME}/lib/dt.jar: JAVAHOME/lib/dt.jar:{JAVA_HOME}/lib/tools.jar:.
export PATH= J A V A H O M E / b i n : {JAVA_HOME}/bin: JAVAHOME/bin:PATH
使得设置生效
source ~/.bashrc
检测是否安装成功
java -version
出现如下版本信息表示jdk安装成功
java version "1.8.0\_201"
Java(TM) SE Runtime Environment (build 1.8.0\_201-b09)
Java HotSpot(TM) 64-Bit Server VM (build 25.201-b09, mixed mode)
**Hadoop** **安装配置**
进入[Index of /dist/hadoop/common]( )官网下载Hadoop相应版本
上传到software目录
解压到servers
tar -zxvf hadoop-2.7.4.tar.gz -C ~/servers/
重命名文件
mv hadoop-2.7.4/ hadoop
设置环境变量,以后就可以在任意目录下使用Hadoop相关命令
vi ~/.bashrc
添加下面的语句
export HADOOP_HOME=~/servers/hadoop
export PATH= P A T H : PATH: PATH:HADOOP_HOME/bin:$HADOOP_HOME/sbin
使设置生效
source ~/.bashrc
hadoop version 查看hadoop的版本
在hadoop的目录中,bin目录存放相关的一些服务脚本,但一般用的不多
在etc中存放的配置文件 hadoop要修改的配置文件都在这里
在include中存放的是和C++相关的头文件
在lib中存放的是库文件
在libexec中放的是和shell相关的文件
在sbin中存放的是hadoop的一些管理脚本,用的相对比较多
在share中存放的是jar包
在src中存放的是源码包
**Hadoop****中需要配置7个文件**
Hadoop-env.sh 配置Hadoop运行所需的环境变量
Yarn-env.sh 配置yarn运行所需的环境变量
Core-site.xml hadoop核心全局配置文件
Hdfs-site.xml hdfs配置文件,继承core-site.xml配置文件
Mapred-site.xml MapReduce配置文件,继承core-site.xml配置文件
Yarn-site.xml yarn配置文件,继承core-site.xml
Slaves 用来配置DataNode节点。
**hadoop\_env.sh****中**
修改
The java implementation to use.
export JAVA_HOME=/home/spark000/servers/jdk
配置jdk的安装路径
**修改core-site.xml**
根标签
fs.defaultFS hadoop集群文件系统的类型
hdfs://master:8020 主节点以及端口
hadoop.tmp.dir 临时文件存储目录
/home/spark000/servers/hadoop/tmp
```修改hdfs-site.xml
<property>
<name>dfs.namenode.secondary.http-address</name>
指定secondarynamenode的主机和端口
<value>master:50090</value>
</property>
<property>
<name>dfs.replication</name> 指定存储文件副本的数量
<value>2</value>
</property>
mapred-site.xml
复制cp mapred-site.xml.template mapred-site.xml
<configuration>
<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>
<!-- jobhistory properties -->
<property>
<name>mapreduce.jobhistory.address</name>
<value>master:10020</value>
</property>
<property>
<name>mapreduce.jobhistory.webapp.address</name>
<value>master:19888</value>
</property>
</configuration>
修改yarn-site.xml
<property>
<name>yarn.resourcemanager.hostname</name>设置yarn的主节点
<value>master</value>
</property>
<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>
修改yarn-env.sh
找到
# export JAVA_HOME=/home/y/libexec/jdk1.6.0/
在下面添加
export JAVA_HOME=~/servers/jdk
修改slaves
配置从节点
添加 slave1 slave2
远程分发
scp -r ~/servers/hadoop slave1:~/servers
scp -r ~/servers/hadoop slave2:~/servers
scp /home/hadoop/.bashrc slave1:~/
scp /home/hadoop/.bashrc slave2:~/
分发完毕以后在每个节点都要执行
source ~/.bashrc
格式化文件系统
hdfs namenode -format
然后再启动集群
如果先启动集群再格式化有可能丢失namenode,需要删除tmp文件夹下所有内容,然后重新进行格式化操作
集群安装spark
**(1)**上传安装包到software
cd /home/spark000/software
解压缩spark到servers
tar -zxvf /home/spark000/software/spark-2.4.0-bin-without-hadoop.tgz -C /home/spark000/servers/
进入servers
cd /home/spark000/servers
重命名spark-2.4.0-bin-without-hadoop
mv spark-2.4.0-bin-without-hadoop spark
在Master节点主机的终端中执行如下命令:
vim ~/.bashrc
添加如下配置
export PATH=$PATH:$SPARK_HOME/bin:$SPARK_HOME/sbin
export SPARK_HOME=/home/spark000/servers/spark
运行source命令,使配置立即生效
source ~/.bashrc
配置slaves文件,将 slaves.template 拷贝到 slaves
$ cd /home/spark000/servers/spark/
$ cp ./conf/slaves.template ./conf/slaves
slaves****文件设置Worker节点。编辑slaves内容,把默认内容localhost替换成如下内容:
slave1
slave2
进入spark
cp ./conf/spark-env.sh.template ./conf/spark-env.sh
vim conf/spark-env.sh
编辑如下内容
export SPARK_DIST_CLASSPATH=$(/home/spark000/servers/hadoop/bin/hadoop )
export HADOOP_CONF_DIR=/home/spark000/servers/hadoop/etc/hadoop
export SPARK_MASTER_IP=192.168.30.131
export JAVA_HOME=/home/spark000/servers/jdk
配置好后,将Master主机上的/home/spark000/servers/spark文件夹复制到各个节点上在Master主机上执行如下命令:
scp -r /home/spark000/servers/spark spark000@slave1:/home/spark000/servers
scp -r /home/spark000/servers/spark spark000@slave2:/home/spark000/servers
测试是否安装成功
- 启动hadoop集群
- 启动spark集群
在Master节点主机上运行如下命令:
ssh spark000@master “/home/spark000/servers/spark/sbin/start-master.sh”
以启动master节点
ssh spark000@master “/home/spark000/servers/spark/sbin/start-slaves.sh”
以启动slave节点
在Master主机上打开浏览器,访问http://master:8080
(1)关闭Master节点 |
如果你也是看准了Python,想自学Python,在这里为大家准备了丰厚的免费学习大礼包,带大家一起学习,给大家剖析Python兼职、就业行情前景的这些事儿。
一、Python所有方向的学习路线
Python所有方向路线就是把Python常用的技术点做整理,形成各个领域的知识点汇总,它的用处就在于,你可以按照上面的知识点去找对应的学习资源,保证自己学得较为全面。
二、学习软件
工欲善其必先利其器。学习Python常用的开发软件都在这里了,给大家节省了很多时间。
三、全套PDF电子书
书籍的好处就在于权威和体系健全,刚开始学习的时候你可以只看视频或者听某个人讲课,但等你学完之后,你觉得你掌握了,这时候建议还是得去看一下书籍,看权威技术书籍也是每个程序员必经之路。
四、入门学习视频
我们在看视频学习的时候,不能光动眼动脑不动手,比较科学的学习方法是在理解之后运用它们,这时候练手项目就很适合了。
四、实战案例
光学理论是没用的,要学会跟着一起敲,要动手实操,才能将自己的所学运用到实际当中去,这时候可以搞点实战案例来学习。
五、面试资料
我们学习Python必然是为了找到高薪的工作,下面这些面试题是来自阿里、腾讯、字节等一线互联网大厂最新的面试资料,并且有阿里大佬给出了权威的解答,刷完这一套面试资料相信大家都能找到满意的工作。
成为一个Python程序员专家或许需要花费数年时间,但是打下坚实的基础只要几周就可以,如果你按照我提供的学习路线以及资料有意识地去实践,你就有很大可能成功!
最后祝你好运!!!
网上学习资料一大堆,但如果学到的知识不成体系,遇到问题时只是浅尝辄止,不再深入研究,那么很难做到真正的技术提升。
一个人可以走的很快,但一群人才能走的更远!不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人,都欢迎加入我们的的圈子(技术交流、学习资源、职场吐槽、大厂内推、面试辅导),让我们一起学习成长!