Hadoop+hive安装

最新推荐文章于 2023-05-15 20:21:27 发布

anyoneking

最新推荐文章于 2023-05-15 20:21:27 发布

阅读量2.1k

点赞数

分类专栏： Hadoop 文章标签： hadoop 分布式计算任务 java input jdk

本文链接：https://blog.csdn.net/anyoneking/article/details/6905896

版权

Hadoop 专栏收录该内容

5 篇文章 0 订阅

订阅专栏

以下IP为1.1.1.1请替换为自己机器的ip。所有ip的配置尽量使用域名。
配置/etc/hosts来使用。

下载hadoop安装包，解压缩
进入conf目录：
修改conf/core-site.xml
    <property>
        <name>hadoop.tmp.dir</name>
        <value>/home/songwei/hadoop/tmp</value>
    </property>
    <property>
        <name>fs.default.name</name>
        <value>hdfs://1.1.1.1:9000</value>
    </property>
这个主要是配置我们的文件系统。其中，fs.default.name的value，不可以写IP地址，要写域名。
域名的查询，具体命令如下：
cd /etc
vi hosts
在hosts文件中，找到自己IP对应的域名。


修改conf/hadoop_env.sh
export JAVA_HOME=/usr/lib/jvm/java-6-sun

修改conf/hdfs-site.xml
<property>
    <name>dfs.name.dir</name>
    <value>/home/hadoop/name</value>
</property>
<property>
    <name>dfs.data.dir</name>
    <value>/home/hadoop/data</value>
</property>
<property>
    <name>dfs.replication</name>
    <value>3</value>
</property>

修改mapred-site.xml
    <property>
        <name>mapred.job.tracker</name>
        <value>1.1.1.1:9001</value>
    </property>
    <property>
        <name>mapred.tasktracker.map.tasks.maximum</name>
        <value>6</value>
    </property>
    <property>
        <name>mapred.tasktracker.reduce.tasks.maximum</name>
        <value>6</value>
    </property>

修改master,slave为本地ip地址
1.1.1.1

bin/hadoop namenode -format 格式化name节点
bin/start-all.sh 启动hadoop
使用jps命令，查看hadoop启动情况
26824 DataNode
27141 TaskTracker
26712 NameNode
27027 JobTracker
26936 SecondaryNameNode

dfs -put /home/hadoop/logfile/a.txt input
成功

下载hive安装包
修改hive中的bin/hive-config.sh
export HADOOP_HOME=/home/hadoop/hadoop/hadoop-0.20.203.0 这个是hadoop的地址
export HIVE_HOME =/home/hadoop/hadoop/hive-0.7.0-bin     这个是hive的地址
export JAVA_HOME=/usr/lib/jvm/java-6-sun-1.6.0.22        这个是jdk的地址

hadoop文件上传后，如果出现各个数据节点数据占用百分比相差过大，影响分布式计算能力
则可通过如下命令进行；在新增节点以后，也可通过此命令平衡数据。
bin/start-balancer.sh -threshold 3
3为3%

启动数据节点：
bin/hadoop-daemon.sh start datanode
bin/hadoop-daemon.sh start tasktracker
hive启动：
HIVE_PORT=10030 bin/hive --service hiveserver
查询当前执行的所有任务
Hadoop job -list
杀掉任务
Hadoop job -kill jobid