以下IP为1.1.1.1请替换为自己机器的ip。所有ip的配置尽量使用域名。
配置/etc/hosts来使用。
下载hadoop安装包,解压缩
进入conf目录:
修改conf/core-site.xml
<property>
<name>hadoop.tmp.dir</name>
<value>/home/songwei/hadoop/tmp</value>
</property>
<property>
<name>fs.default.name</name>
<value>hdfs://1.1.1.1:9000</value>
</property>
这个主要是配置我们的文件系统。其中,fs.default.name的value,不可以写IP地址,要写域名。
域名的查询,具体命令如下:
cd /etc
vi hosts
在hosts文件中,找到自己IP对应的域名。
修改conf/hadoop_env.sh
export JAVA_HOME=/usr/lib/jvm/java-6-sun
修改conf/hdfs-site.xml
<property>
<name>dfs.name.dir</name>
<value>/home/hadoop/name</value>
</property>
<property>
<name>dfs.data.dir</name>
<value>/home/hadoop/data</value>
</property>
<property>
<name>dfs.replication</name>
<value>3</value>
</property>
修改mapred-site.xml
<property>
<name>mapred.job.tracker</name>
<value>1.1.1.1:9001</value>
</property>
<property>
<name>mapred.tasktracker.map.tasks.maximum</name>
<value>6</value>
</property>
<property>
<name>mapred.tasktracker.reduce.tasks.maximum</name>
<value>6</value>
</property>
修改master,slave为本地ip地址
1.1.1.1
bin/hadoop namenode -format 格式化name节点
bin/start-all.sh 启动hadoop
使用jps命令,查看hadoop启动情况
26824 DataNode
27141 TaskTracker
26712 NameNode
27027 JobTracker
26936 SecondaryNameNode
dfs -put /home/hadoop/logfile/a.txt input
成功
下载hive安装包
修改hive中的bin/hive-config.sh
export HADOOP_HOME=/home/hadoop/hadoop/hadoop-0.20.203.0 这个是hadoop的地址
export HIVE_HOME =/home/hadoop/hadoop/hive-0.7.0-bin 这个是hive的地址
export JAVA_HOME=/usr/lib/jvm/java-6-sun-1.6.0.22 这个是jdk的地址
hadoop文件上传后,如果出现各个数据节点数据占用百分比相差过大,影响分布式计算能力
则可通过如下命令进行;在新增节点以后,也可通过此命令平衡数据。
bin/start-balancer.sh -threshold 3
3为3%
启动数据节点:
bin/hadoop-daemon.sh start datanode
bin/hadoop-daemon.sh start tasktracker
hive启动:
HIVE_PORT=10030 bin/hive --service hiveserver
查询当前执行的所有任务
Hadoop job -list
杀掉任务
Hadoop job -kill jobid
配置/etc/hosts来使用。
下载hadoop安装包,解压缩
进入conf目录:
修改conf/core-site.xml
<property>
<name>hadoop.tmp.dir</name>
<value>/home/songwei/hadoop/tmp</value>
</property>
<property>
<name>fs.default.name</name>
<value>hdfs://1.1.1.1:9000</value>
</property>
这个主要是配置我们的文件系统。其中,fs.default.name的value,不可以写IP地址,要写域名。
域名的查询,具体命令如下:
cd /etc
vi hosts
在hosts文件中,找到自己IP对应的域名。
修改conf/hadoop_env.sh
export JAVA_HOME=/usr/lib/jvm/java-6-sun
修改conf/hdfs-site.xml
<property>
<name>dfs.name.dir</name>
<value>/home/hadoop/name</value>
</property>
<property>
<name>dfs.data.dir</name>
<value>/home/hadoop/data</value>
</property>
<property>
<name>dfs.replication</name>
<value>3</value>
</property>
修改mapred-site.xml
<property>
<name>mapred.job.tracker</name>
<value>1.1.1.1:9001</value>
</property>
<property>
<name>mapred.tasktracker.map.tasks.maximum</name>
<value>6</value>
</property>
<property>
<name>mapred.tasktracker.reduce.tasks.maximum</name>
<value>6</value>
</property>
修改master,slave为本地ip地址
1.1.1.1
bin/hadoop namenode -format 格式化name节点
bin/start-all.sh 启动hadoop
使用jps命令,查看hadoop启动情况
26824 DataNode
27141 TaskTracker
26712 NameNode
27027 JobTracker
26936 SecondaryNameNode
dfs -put /home/hadoop/logfile/a.txt input
成功
下载hive安装包
修改hive中的bin/hive-config.sh
export HADOOP_HOME=/home/hadoop/hadoop/hadoop-0.20.203.0 这个是hadoop的地址
export HIVE_HOME =/home/hadoop/hadoop/hive-0.7.0-bin 这个是hive的地址
export JAVA_HOME=/usr/lib/jvm/java-6-sun-1.6.0.22 这个是jdk的地址
hadoop文件上传后,如果出现各个数据节点数据占用百分比相差过大,影响分布式计算能力
则可通过如下命令进行;在新增节点以后,也可通过此命令平衡数据。
bin/start-balancer.sh -threshold 3
3为3%
启动数据节点:
bin/hadoop-daemon.sh start datanode
bin/hadoop-daemon.sh start tasktracker
hive启动:
HIVE_PORT=10030 bin/hive --service hiveserver
查询当前执行的所有任务
Hadoop job -list
杀掉任务
Hadoop job -kill jobid