hadoop大致的工作流程

                  hadoop过程中最重要的是MapReduce框架,可是处于集群的考虑,网络带宽的限制,其中还有很多优化。

                  这是本人画的,希望不要出错....

                




一个job分块,进行map操作,hadoop使用数据本地优化,所以在集群中的节点机子上进行map操作,数据最好是一个HDFS的块数据大小既64M,闲话不多说了,看图就知道了


Ubuntu配置Hadoop流程大致可以分为以下几个步骤: 1. 系统环境准备:首先确保你的Ubuntu系统已经更新到最新,可以使用`sudo apt-get update`和`sudo apt-get upgrade`命令来更新系统和软件包。 2. 安装Java环境:Hadoop是基于Java开发的,因此需要先安装Java。可以使用以下命令来安装OpenJDK: ``` sudo apt-get install openjdk-8-jdk ``` 安装完成后,设置Java环境变量,确保`JAVA_HOME`指向正确的JDK安装目录,并且`java -version`能够正确显示Java版本。 3. 安装SSH:Hadoop需要SSH来进行节点之间的通信。可以使用以下命令安装SSH服务和客户端: ``` sudo apt-get install ssh sudo apt-get install ssh-client ``` 如果需要作为无密码SSH登录,还需要生成SSH密钥并将公钥复制到其他节点(如果是集群配置的话)。 4. 安装Hadoop:下载Hadoop的tar.gz包,然后解压到指定目录。例如,可以使用以下命令: ``` wget http://archive.apache.org/dist/hadoop/common/hadoop-<version>/hadoop-<version>.tar.gz tar -xzf hadoop-<version>.tar.gz mv hadoop-<version> /usr/local/hadoop ``` 替换`<version>`为你需要的Hadoop版本。 5. 配置Hadoop环境变量:编辑`~/.bashrc`文件,添加Hadoop的环境变量: ``` export HADOOP_HOME=/usr/local/hadoop export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin source ~/.bashrc ``` 确保`HADOOP_HOME`指向你的Hadoop安装目录。 6. 配置Hadoop:编辑`$HADOOP_HOME/etc/hadoop/hadoop-env.sh`文件,设置Java的环境变量`JAVA_HOME`。然后配置`core-site.xml`、`hdfs-site.xml`、`mapred-site.xml`和`yarn-site.xml`等配置文件,设置相应的参数,如文件系统默认名称、HDFS副本数、MapReduce作业调度器等。 7. 格式化HDFS文件系统:使用Hadoop的`hdfs namenode -format`命令格式化HDFS文件系统。 8. 启动Hadoop:可以使用`start-dfs.sh`和`start-yarn.sh`脚本来启动HDFS和YARN服务。 9. 验证安装:可以通过访问Hadoop的Web界面或者使用Hadoop命令行工具来验证Hadoop是否安装成功并且正常运行。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值