Hadoop-Hadoop应用总结（转载）

最新推荐文章于 2022-11-22 01:05:24 发布

GP0071

最新推荐文章于 2022-11-22 01:05:24 发布

阅读量1.6k

点赞数

分类专栏： Hadoop 文章标签： Hadoop 集群

Hadoop 专栏收录该内容

18 篇文章 0 订阅

订阅专栏

转http://lxm63972012.iteye.com/blog/1433307

环境配置

1. 安装linux ubuntu系统

2. 安装开启openssh-server：$ sudo apt-get install openssh-server

3. 建立ssh 无密码登录

           $ ssh-keygen -t dsa -P '' -f ~/.ssh/id_dsa

           直接回车，完成后会在~/.ssh/生成两个文件：id_dsa 和id_dsa.pub。

           这两个是成对出现，类似钥匙和锁。再把id_dsa.pub 追加到授权key 里面(当前并没有authorized_keys文件)：

           $ cat ~/.ssh/id_dsa.pub >> ~/.ssh/authorized_keys。

           完成后可以实现无密码登录本机：$ ssh localhost。

       4.关闭防火墙 $ sudo ufw disable

5. 安装jdk 1.6

6. 安装后，添加如下语句到/etc/profile 中：

           export JAVA_HOME=/home/Java/jdk1.6

           export JRE_HOME=/home/Java/jdk1.6/jre

           export CLASSPATH=.:$JAVA_HOME/lib:$JRE_HOME/lib:$CLASSPATH

           export PATH=$JAVA_HOME/bin:$JRE_HOME/bin:$PATH

Hadoop伪分布配置
1. 在conf/hadoop-env.sh文件中增加：export JAVA_HOME=/home/Java/jdk1.6

2. 在conf/core-site.xml文件中增加如下内容：

    <property>
          <name>fs.default.name</name>
          <value>hdfs://localhost:9000</value>
    </property>

<!—hadoop.tmp.dir 是hadoop文件系统依赖的基础配置，很多路径都依赖它。如果hdfs-site.xml中不配置namenode和datanode的存放位置，默认就放在这个路径中-->
   <property>
      <name>hadoop.tmp.dir</name>
      <value>/home/hdfs/tmp</value>
   </property>

3. 在conf/hdfs-site.xml中增加如下内容：

     <property>
         <name>dfs.replication</name>
         <value>1</value>
     </property>

    <property>
         <name>dfs.name.dir</name>
         <value>/home/hdfs/name</value>
    </property>
    <property>
        <name>dfs.data.dir</name>
        <value>/home/hdfs/data</value>
    </property>
4. 在conf/mapred-site.xml中增加如下内容：

<property>
       <name>mapred.job.tracker</name>
       <value>localhost:9001</value>
</property>

操作命令

1. 格式化工作空间

进入bin目录，运行 ./hadoop namenode –format

2. 启动hdfs

进入hadoop目录,在bin/下面有很多启动脚本，可以根据自己的需要来启动。

* start-all.sh 启动所有的Hadoop守护。包括namenode, datanode, jobtracker, tasktrack

* stop-all.sh 停止所有的Hadoop

* start-mapred.sh 启动Map/Reduce守护。包括Jobtracker和Tasktrack

* stop-mapred.sh 停止Map/Reduce守护

* start-dfs.sh 启动Hadoop DFS守护Namenode和Datanode

* stop-dfs.sh 停止DFS守护

Hadoop hdfs 整合

可按如下步骤删除和更改hdfs不需要的文件：

1.将hadoop-core-1.0.0.jar 移动到lib目录下。

2. 将ibexec目录下的文件移动到bin目录下。

3. 删除除bin、lib、conf、logs之外的所有目录和文件。

4. 如果需要修改日志存储路径，则需要在conf/hadoop-env.sh文件中增加：

export HADOOP_LOG_DIR=/home/xxxx/xxxx即可。

HDFS文件操作

Hadoop使用的是HDFS，能够实现的功能和我们使用的磁盘系统类似。并且支持通配符，如*。

1. 查看文件列表

查看hdfs中/user/admin/hdfs目录下的文件。

a. 进入HADOOP_HOME目录。

b. 执行sh bin/hadoop fs -ls /user/admin/hdfs

查看hdfs中/user/admin/hdfs目录下的所有文件（包括子目录下的文件）。

a. 进入HADOOP_HOME目录。

b. 执行sh bin/hadoop fs -lsr /user/admin/hdfs

2. 创建文件目录

查看hdfs中/user/admin/hdfs目录下再新建一个叫做newDir的新目录。

a. 进入HADOOP_HOME目录。

b. 执行sh bin/hadoop fs -mkdir /user/admin/hdfs/newDir

3. 删除文件

删除hdfs中/user/admin/hdfs目录下一个名叫needDelete的文件

a. 进入HADOOP_HOME目录。

b. 执行sh bin/hadoop fs -rm /user/admin/hdfs/needDelete

删除hdfs中/user/admin/hdfs目录以及该目录下的所有文件

a. 进入HADOOP_HOME目录。

b. 执行sh bin/hadoop fs -rmr /user/admin/hdfs

4. 上传文件

上传一个本机/home/admin/newFile的文件到hdfs中/user/admin/hdfs目录下

a. 进入HADOOP_HOME目录。

b. 执行sh bin/hadoop fs –put /home/admin/newFile /user/admin/hdfs/

5. 下载文件

下载hdfs中/user/admin/hdfs目录下的newFile文件到本机/home/admin/newFile中

a. 进入HADOOP_HOME目录。

b. 执行sh bin/hadoop fs –get /user/admin/hdfs/newFile /home/admin/newFile

6. 查看文件内容

查看hdfs中/user/admin/hdfs目录下的newFile文件

a. 进入HADOOP_HOME目录。

b. 执行sh bin/hadoop fs –cat /home/admin/newFile

GP0071

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
Hadoop-Hadoop应用总结（转载）

转http://lxm63972012.iteye.com/blog/1433307环境配置 1. 安装linux ubuntu系统 2. 安装开启openssh-server：$ sudo apt-get install openssh-server 3. 建立ssh 无密码登录 $ ssh-keygen -t ds
复制链接

扫一扫