Hadoop+hive安装

以下IP为1.1.1.1请替换为自己机器的ip。所有ip的配置尽量使用域名。
配置/etc/hosts来使用。

下载hadoop安装包,解压缩
进入conf目录:
修改conf/core-site.xml
    <property>
        <name>hadoop.tmp.dir</name>     
        <value>/home/songwei/hadoop/tmp</value>
    </property>
    <property>
        <name>fs.default.name</name>
        <value>hdfs://1.1.1.1:9000</value>
    </property>
这个主要是配置我们的文件系统。其中,fs.default.name的value,不可以写IP地址,要写域名。
域名的查询,具体命令如下:
cd /etc
vi hosts
 在hosts文件中,找到自己IP对应的域名。

    
修改conf/hadoop_env.sh
export JAVA_HOME=/usr/lib/jvm/java-6-sun


修改conf/hdfs-site.xml
<property>
    <name>dfs.name.dir</name>
    <value>/home/hadoop/name</value>
</property>
<property>
    <name>dfs.data.dir</name>
    <value>/home/hadoop/data</value>
</property>
<property>
    <name>dfs.replication</name>
    <value>3</value>
</property>

修改mapred-site.xml
    <property>
        <name>mapred.job.tracker</name>
        <value>1.1.1.1:9001</value>
    </property>
    <property>
        <name>mapred.tasktracker.map.tasks.maximum</name>
        <value>6</value>
    </property>
    <property>
        <name>mapred.tasktracker.reduce.tasks.maximum</name>
        <value>6</value>
    </property>
    
修改master,slave为本地ip地址
1.1.1.1

bin/hadoop namenode -format 格式化name节点
bin/start-all.sh 启动hadoop
使用jps命令,查看hadoop启动情况
26824 DataNode
27141 TaskTracker
26712 NameNode
27027 JobTracker
26936 SecondaryNameNode

dfs -put /home/hadoop/logfile/a.txt input
成功

下载hive安装包
修改hive中的bin/hive-config.sh
export HADOOP_HOME=/home/hadoop/hadoop/hadoop-0.20.203.0 这个是hadoop的地址
export HIVE_HOME =/home/hadoop/hadoop/hive-0.7.0-bin     这个是hive的地址
export JAVA_HOME=/usr/lib/jvm/java-6-sun-1.6.0.22        这个是jdk的地址

hadoop文件上传后,如果出现各个数据节点数据占用百分比相差过大,影响分布式计算能力
则可通过如下命令进行;在新增节点以后,也可通过此命令平衡数据。
bin/start-balancer.sh -threshold 3
3为3%

启动数据节点:
bin/hadoop-daemon.sh start datanode
bin/hadoop-daemon.sh start tasktracker
hive启动:
HIVE_PORT=10030 bin/hive --service hiveserver
查询当前执行的所有任务
Hadoop job -list
杀掉任务
Hadoop job -kill jobid


展开阅读全文

没有更多推荐了,返回首页