Vm虚拟机 想要在windows电脑上操作linux操作系统需要安装这个软件
CentOS 是linux操作系统
配置
linux里面创建文件夹<mkdir>
1.在/opt文件下分贝=别创建两个文件夹(software和module)
注.Software里面存放我们解压前的文件
Module里面存放我们解压后的文件
2.解压jdk到module文件夹里
命令:tar
(1)需要切换到software文件夹下
命令:cd /opt/software
(2)解压文件
tar -zxvf (文件名) -C /etc/profile
4.配置JDK的环境变量
(1)命令输入:vi /etc/profile
<%--comment--%>注释
多行注释<%/*注释语句*/>
单行注释<%//注释语句%>
HTML注释<!--comment【%=expression=%】comment--!>
<%=new java.util.Date()%>-->时间的显示
<%@ include file="文件名" %>
2021年10月13日星期三,课堂笔记
一、本地模式
hadoop去操作
目标1:利用本地hadoop实现单词个数的统计
(1)需要包含内容的文件(统计单词个数的文件)
(2)在hadoop中执行文件
(3)查看执行结果。
二.、伪分布部署
命令:hadoop jar hadoop-mapreduce-examples-3.1.3.jar wordocunt(操作) /opt/text/input/(操作那个文件) /opt/text/output/count.txt(执行后的结果存放位置)
删除文件夹的命令:rm-R 目录名称
移动的命令
1.安装虚拟机,镜像(CentOS)
2.修改主机名,ip地址
3、ip地址和主机名映射
4、网络配置{1、虚拟机 2、windows}
5、moba 安装连接
6、安装hadoop 、jdk
7、配置环境变量
8、hadoop布置{1、本地布置 2、伪分布式, 3、安全分布式}
伪分布式布署:
课堂预习:
core-site-xml
hafs-site.xml
这节课:yarn-site.xml
mapred -site.xml
#jps
7340 jps
#hdfs --daemon start namenode (yps 查看进程)
#jps
7393 NameNode
7458 Jps
#hdfs --daemon start datanode
# jps
7393 NameNode
7572 Jps
7512
DataNode
#cd / opt/module/hadoop -3.1.3/etc/hadoop/
#pwd pwd(查看当前所在位置)
/opt/module/hadoop -3.1.3/etc/hadoop/
#ll
# vi yarn -site.xml
<!-- Site specific YARN configuration properties -->
<!-- Reducer获取数据的方式 -->
<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>
<!-- 指定YARN的ResourceManager的地址 -->
<property>
<name>yarn.resourcemanager.hostname</name>
*调整的内容是你的是100就是多少<value>hadoop100</value>
</property>
<property>
<name>yarn.nodemanager.env-whitelist</name> <value>JAVA_HOME,HADOOP_COMMON_HOME,HADOOP_HDFS_HOME,HADOOP_CONF_DIR,CLASSPATH_PREPEND_DISTCACHE,HADOOP_YARN_HOME,HADOOP_MAPRED_HOME</value>
</property>
</configuration>
退出
#vi mapred -site.xml
<!-- 指定MR运行在YARN上 -->
<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>
</configuration>
退出
#yarn --daemon start resourcemanager
#jps
7393 NameNode
7636 ResourceManager
7512 DataNode
7854 Jps
cd . . 返回上一层
ll 查看文件
cd logs 切换到logs文件里面
cat 查看文件内容
删除文件 rm -r
上课笔记
HDFS是进行存储的,YARN是进行调度的。
1.切换到hadoop下面的etc(配置文件都在etc下面)
2.在hadoop中配置core-site.xml
Vi core-site.xml
指定HDFS中namenode的地址。将命令放到configuration标签中
<configuration>
<!-- 指定HDFS中NameNode的地址 -->
<property>
<name>fs.defaultFS</name>
<value>hdfs://hadoop100:9820</value>
</property>
<!-- 指定Hadoop运行时产生文件的存储目录 -->
<property>
<name>hadoop.tmp.dir</name>
<value>/opt/module/hadoop-3.1.3/data/tmp</value>
</property>
</configuration>
3.在hadoop中配置hdfs-site.xml
命令:vi hdfs-site.xml
在configuration中指定HDFS的数量
<configuration>
<!-- 指定HDFS副本的数量 -->
<property>
<name>dfs.replication</name>
<value>1</value>
</property>
</configuration>
4.格式化NameNode(第一次启动时格式化,以后就不要总格式化)
格式化命令:hdfs namenode –format
5.启动namenode
命令:hdfs - -daemon start namenode
6.启动datanode
命令:hdfs --daemon start datanode
7.配置yarn-site.xml
命令:vi yarn-site.xml
<configuration>
<!-- Site specific YARN configuration properties -->
<!-- Reducer获取数据的方式 -->
<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>
<!-- 指定YARN的ResourceManager的地址 -->
<property>
<name>yarn.resourcemanager.hostname</name>
<value>hadoop100</value>
</property>
<property>
<name>yarn.nodemanager.env-whitelist</name> <value>JAVA_HOME,HADOOP_COMMON_HOME,HADOOP_HDFS_HOME,HADOOP_CONF_DIR,CLASSPATH_PREPEND_DISTCACHE,HADOOP_YARN_HOME,HADOOP_MAPRED_HOME</value>
</property>
</configuration>
8.配置mapred-site.xml
命令:[root@hadoop100 hadoop]# vi mapred-site.xml
<configuration>
<!-- 指定MR运行在YARN上 -->
<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>
</configuration>
9.启动resourcemanager
命令:[root@hadoop100 hadoop]# yarn --daemon start resourcemanager
10.启动nodemanager
命令:[root@hadoop100 hadoop]# yarn --daemon start nodemanager
11.Jsp查看java进程
命令:jsp
12.在HDFS中创建文件夹/user/input
命令:hdfs dfs -mkdir -p /user/input
13.将文件上传到HDFS
命令:hdfs dfs –put 要上传的文件名 上传的地址
案例: hdfs dfs -put wcinput/wc.input /user/input/
14.查看hdfs的文件目录
命令:Hdfs dfs –ls 文件路径
注意,这里面的根目录不是linux的根目录
案例:hdfs dfs -ls /user/input/
15.查看hdfs中文件内容
命令:hdfs dfs –cat 文件名
案例:hdfs dfs -cat /user/input/wc.input
16.执行文件
命令:hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-3.1.3.jar wordcount 执行的文件位置 输出的文件位置
案例:hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-3.1.3.jar wordcount /user/input /user/output
17.查看执行后的结果
命令:hdfs dfs -cat 输出文件路径/*
案例:hdfs dfs -cat /user/output/*
18.停止进程 hdfs –daemon stop namenode
Hdfs维护了一个抽象的目录
命令:hdfs dfs -mkdir -p(可写可不写) 目录名
将文件上传到hdfs上,命令hdfs dfs -put 上传的文件路径从头到尾的目录
要上传到hdfs的位置
完全分布式平台搭建
1; 3台虚拟机
2;jdk hadoop已搭建
一 ;集群配置
克隆完,设ip,设主机名 主机名修改: ip修改: (自己填)
hadoop100 hadoop101 hadoop102
HDFS: nomenode datawode datanode second datanade
YARN: nodemarager res nodemanager
1 vi hadoop-env.sh
2.vi core-site.xml
<?xml version="1.0" encoding="UTF-8"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
<configuration>
<property>就【
<name>fs.defaultFS</name>
<value>hdfs://hadoop100:9820</value>
</property>
<!-- hadoop.data.dir是自定义的变量,下面的配置文件会用到 -->
<property>
<name>hadoop.data.dir</name>
<value>/opt/module/hadoop-3.1.3/data</value>
</property>
</configuration>
1.相对路径(相对于当前路径)
(cd ./sbin/)
2.绝对路径(从根目录开始)
log(日志文件)
share(编程)做一些脚本
ll(读取文件夹)
启动文件:(vi start-dfs.sh)进入后台
加上下面这些:
HDFS_DATANODE_USER=root
HADOOP_SECURE_DN_USER=hdfs
HDFS_NAMENODE_USER=root
HDFS_SECONDARYNAMENODE_USER=root
然后:wq!退出
(vi stop-dfs.sh) 进入后台
加上下面这些
HDFS_DATANODE_USER=root
HADOOP_SECURE_DN_USER=hdfs
HDFS_NAMENODE_USER=root
HDFS_SECONDARYNAMENODE_USER=root
然后:wq!退出
(vi start-yarn.sh) 进入后台
加上下面这些
YARN_RESOURCEMANAGER_USER=root
HADOOP_SECURE_DN_USER=yarn
YARN_NODEMANAGER_USER=root
然后:wq! 退出
(vi start-yarn.sh) 加上后台
加上下面这些
YARN_RESOURCEMANAGER_USER=root
HADOOP_SECURE_DN_USER=yarn
YARN_NODEMANAGER_USER=root
然后退出
# cd /opt/module/hadoop-3.1.3/etc/hadoop
# vi workers 查看主机名
#scp -r /workers hadoop101:/opt/module/hadoop-3.1.3/etc/hadoop/
会出来一个workers
#按上键把hadoop101改成hadoop102就可以了
还是会出来一个workers
# scp -r /opt/module/hadoop-3.1.3/sbin/ hadoop101:/opt/module/hadoop-3.1.3/
全部成功是所有的都是100%
#cd. . (返回上一层)
#cd. .
#LL
#rm -rf data
删除:rm
rm -rf 文件名 : 删除文件
-
在/opt/software下