最近在看大数据的课程做了一点笔记。
hadoop 安装:
创建hadoop账户
安装java环境
打开终端,输入
sudo useradd -m hadoop -s /bin/bash
输入密码
sudo passwd hadoop
为hadoop添加管理员权限
sudo adduser hadoop sudo
下载hadoop-2.x.y.tar.gz
把上述文件复制到 安装到/usr/local/
cd /usr/local/
sudo tar -zxvf hadoop-2.x.y.tar.gz
把文件夹改名为hadoop
sudo mv ./hadoop-2.6.0/ ./hadoop
修改文件权限
sudo chown -R hadoop:hadoop ./hadoop
查看版本信息
cd /usr/local/hadoop/
./bin/hadoop version
hadoop 可以在单节点上以伪分布式的方式运行,hadoop进程以分离的java进程来运行,节点既作为NameNode也作为DataNode,同时,读取的是HDFS中的文件。
hadoop的配置文件位于/usr/local/hadoop/etc/hadoop/中,伪分布式需要修改2个配置文件core-site.xml和hdfs-site.xml
hadoop的配置文件是xml格式,每个配置以声明property的name和value的方式来实现。
实验步骤;
修改配置文件:core-site.xml,hdfs-site.xml,mapred-site.xml
初始化文件系统hadoop namenode-format
启动所有进程start-all.sh
访问web界面,查看hadoop信息
运行实例;
修改配置文件core-site.xml
<configuration>
<property>
<name>hadoop.tmp.dir</name>
<value>file:/usr/local/hadoop/tmp</value>
<description>Abase for other temporary directories.</description>
</property>
<property>
<name>fs.defaultFS</name>
<value>hdfs://localhost:9000</value>
</property>
</configuration>
hadoop.tmp.dir表示存放临时数据的目录,即包括NameNode的数据,也包括DataNode的数据。该路径任意指定,只要实际存在该文件夹即可
name为fs.defaultFS的值,表示hdfs路径的逻辑名称
修改配置文件hdfs-site.xml
<configuration>
<property>
<name>dfs.replication</name>
<value>1</value>
</property>
<property>
<name>dfs.namenode.name.dir</name>
<value>file:/usr/localhadoop/tmp/dfs/name</value>
</property>
<property>
<name>dfs.datanode.data.dir</name>
<value>file:/usr/local/hadoop/tmp/dfs/data</value>
</property>
</configuration>
dfs.replication 表示副本的数量,伪分布式要设置为1
dfs.namenode.name.dir表示本地磁盘目录,是存储fsimage文件的地方
dfs.datanode.data.dir表示本地磁盘目录,HDFS数据存放block的地方