hadoop2.2.0&ssh免登陆&HDFS的shell操作&HDFS的java访问接口

ssh免登陆

生成ssh免登陆密钥

1 cd ~,进入到我的home目录


2 cd .ssh/

 3 ssh-keygen -t rsa (四个回车)

 

 4执行完这个命令后,会生成两个文件id_rsa(私钥)、id_rsa.pub(公钥)

 5将公钥拷贝到要免登陆的机器上
        cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys
        或 ssh-copy-id -i localhost

 

HDFS 的 shell 操作

既然 HDFS 是存取数据的分布式文件系统,那么对 HDFS 的操作,就是文件系统的基本

操作,比如文件的创建、修改、删除、修改权限等,文件夹的创建、删除、重命名等。对

HDFS 的操作命令类似于 lLinux 的 shell 对文件的操作,如 ls、mkdir、rm 等。

我们执行以下操作的时候,一定要确定 hadoop 是正常运行的,使用 jps 命令确保看到

各个 hadoop 进程。

我们执行命令 hadoop fs,如图 4-1 所示。

 

图 4-1

 

图中显示了很多命令选项信息。以上截图不全,我在表格 4-1 中完整的地列出了支持的

命令选项。

选项名称

使用格式

含义

-ls

-ls <路径>

查看指定路径的当前目录结构

-lsr

-lsr <路径>

递归查看指定路径的目录结构

-du

-du <路径>

统计目录下个文件大小

-dus

-dus <路径>

汇总统计目录下文件(夹)大小

-count

-count [-q] <路径>

统计文件(夹)数量

-mv

-mv <源路径> <目的路径>

移动

-cp

-cp <源路径> <目的路径>

复制

-rm

-rm [-skipTrash] <路径>

删除文件/空白文件夹

-rmr

-rmr [-skipTrash] <路径>

递归删除

-put

-put <多个 linux 上的文件> <hdfs 路径>

上传文件

-copyFromLocal

-copyFromLocal <多个 linux 上的文件>

<hdfs 路径>

从本地复制

-moveFromLocal

-moveFromLocal <多个 linux 上的文件>

<hdfs 路径>

从本地移动

-getmerge

-getmerge <源路径> <linux 路径>

合并到本地

-cat

-cat <hdfs 路径>

查看文件内容

-text

-text <hdfs 路径>

查看文件内容

-copyToLocal

-copyToLocal [-ignoreCrc] [-crc] [hdfs 源路

径] [linux 目的路径]

从本地复制

-moveToLocal

-moveToLocal [-crc] <hdfs 源路径> <linux

目的路径>

从本地移动

-mkdir

-mkdir <hdfs 路径>

创建空白文件夹

-setrep

-setrep [-R] [-w] <副本数> <路径>

修改副本数量

-touchz

-touchz <文件路径>

创建空白文件

-stat

-stat [format] <路径>

显示文件统计信息

-tail

-tail [-f] <文件>

查看文件尾部信息

-chmod

-chmod [-R] <权限模式> [路径]

修改权限

-chown

-chown [-R] [属主][:[属组]] 路径

修改属主

-chgrp

-chgrp [-R] 属组名称 路径

修改属组

-help

-help [命令选项]

帮助

注意:以上表格中 对于路径包括 hdfs 中的路径和 linux 中的路径。对于容易产生歧义的地方,会特别指出“linux 路径”或者“hdfs 路径”。如果没有明确指出,意味着是 hdfs 路径。

下面我们讲述每个命令选项的用法。

-ls 显示当前目录结构

 

上图中的路径是 hdfs 根目录,显示的内容格式与 linux 的命令 ls –l 显示的内容格式

非常相似,现在下面解析每一行的内容格式:

  1. 首字母表示文件夹(如果是“d”)还是文件(如果是“-”);
  2. 后面的 9 位字符表示权限;
  3. 后面的数字或者“-”表示副本数。如果是文件,使用数字表示副本数;文件夹没有副

本;

  1. 后面的“root”表示属主;
  2. 后面的“supergroup”表示属组;
  3. 后面的“0”、“6176”、“37645”表示文件大小,单位是字节;
  4. 后面的时间表示修改时间,格式是年月日时分;
  5. 最后一项表示文件路径。

可见根目录下面有四个文件夹、两个文件。

如果该命令选项后面没有路径,那么就会访问/user/<当前用户>目录。我们使用 root 用户登录,因此会访问 hdfs 的/user/root 目录,如图 4-2.所示。

图 4-2

如果没有这个目录/user/root,会提示文件不存在的错误。

 -du 统计目录下各文件大小

 

 

-dus 汇总统计目录下文件大小

该命令选项显示指定路径的文件大小,单位是字节,如图 4-5 所示。.

 

请读者比较图 4-4 与图 4-5 的区别,体会两个命令选项的不同含义。

-count 统计文件(夹)数量

该命令选项显示指定路径下的文件夹数量、文件数量、文件总大小信息,如图 4-6 所示.

-mv 移动

该命令选项表示移动 hdfs 的文件到指定的 hdfs 目录中。后面跟两个路径,第一个 

 

 

表示源文件,第二个表示目的目录。,如图 4-7 所示。.

在图 4-7 中有三条命令,是为了体现移动前后的变化情况。

-cp 复制该命令选项表示复制 hdfs 指定的文件到指定的 hdfs 目录中。后面跟两个路径,

 

在图 4-8 中有三条命令,是为了体现复制前后的变化情况。

-rm 删除文件/空白文件夹

 

在图 4-9 中,前三条命令是为了体现执行前后的变化情况。第四条命令是删除非空的“/user/root”目录,操作失败,表明不能删除非空目录。

l-rmr 递归删除

 

-put 上传文件

该命令选项表示把 linux 上的文件复制到 hdfs 中,.

 

 -copyFromLocal 从本地复制

操作与-put 一致,

  -moveFromLocal 从本地移动

 getmerge 合并到本地该命令选项的含义是把 hdfs 指定目录下的所有文件内容合并到本地 linux 的文件中,如图

 -cat 查看文件内容

 

-text 查看文件内容

该命令选项可以认为作用和用法与-cat 相同,

-mkdir 创建空白文件夹

 

-setrep 设置副本数量

该命令选项是修改已保存文件的副本数量,后面跟副本数量,再跟文件路径,

我们修改了文件/install.log 的副本数,由 1 修改为 2,意味着多了一个副本,HDFS 会自动执行文件的复制工作,产生新的副本。 如果最后的路径表示文件夹,那么需要跟选项-R,表示对文件夹中的所有文件都修改副本,

 

 

我们对/user 文件夹进行的操作,使用了选项-R,那么/user/root 下的文件 abc 的副本数发生了改变。

还有一个选项是-w,表示等待副本操作结束才退出命令,

 比较以上两图中使用-q 前后执行结果的变化情况。

-touchz

创建空白文件该命令选项是在 hdfs 中创建空白文件,

 

 stat 显示文件的统计信息

 命令选项后面可以有格式,使用引号表示。示例中的格式“%b%n %r %Y”依次表示文件大小、文件名称、块大小、副本数、访问时间。

-tail 查看文件尾部内容

该命令选项显示文件最后 1K 字节的内容。一般用于查看日志。如果带有选项-f,那么当文件内容变化时,也会自动显示

 

chmod 修改文件权限

该命令选项的使用类似于 linux 的 shell 中的 chmod 用法,作用是修改文件的权限.

 修改了文件/emptyfile 的权限。

 chown 修改属主

把文件/emptyfile 的属主由 root 修改为 itcast。
也可以同时修改属组

 

 把文件/emptyfile 的属主和属组都修改为 itcast,如果只修改属组,可以使用“:itcast”。
如果带有选项-R,意味着可以递归修改文件夹中的所有文件的属主、属组信息。

chgrp

修改属组该命令的作用是修改文件的属组,该命令相当于“chown :属组”的用法,

 help

帮助该命令选项会显示帮助信息,后面跟上需要查询的命令选项即可,如图

该命令选项显示的内容并非完全准确,比如查询 count 的结果就不准确,而是把所有命 令选项的用法都显示出来,希望新的版本以后改进。

 

HDFS 的 java 访问接口

4.5.1.搭建 Hadoop 开发环境我们在工作中写完的各种代码是在服务器中运行的,HDFS 的操作代码也不例外。在开

发阶段,我们使用 windows 下的 eclipse 作为开发环境,访问运行在虚拟机中的 HDFS。也就是通过在本地的 eclipse 中的 java 代码访问远程 linux 中的 hdfs。

要使用宿主机中的 java 代码访问客户机中的 hdfs,需要保证以下几点:

  1. 确保宿主机与客户机的网络是互通的
  2. 确保宿主机和客户机的防火墙都关闭,因为很多端口需要通过,为了减少防火墙配置,

直接关闭

  1. 确保宿主机与客户机使用的 jdk 版本一致。如果客户机使用 jdk6,宿主机使用 jdk7,那

么代码运行时会报不支持的版本的错误

  1. 宿主机的登录用户名必须与客户机的用户名一直。比如我们 linux 使用的是 root 用户,

那么 windows 也要使用 root 用户,否则会报权限异常

  1. 在 eclipse 项目中覆盖 hadoop 的 org.apache.hadoop.fs.FileUtil 类的 checkReturnValue 方

法,目的是为了避免权限错误

配置环境变量

 

导入所需jar包

 

连接hdfs

 

import com.sun.scenario.effect.impl.sw.sse.SSEBlend_SRC_OUTPeer;
import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.FileSystem;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.IOUtils;
import org.junit.Before;
import org.junit.Test;

import java.io.*;
import java.net.URI;
import java.net.URISyntaxException;

public class java_hdfs {
    //自定义文件系统,类变量
    FileSystem fs=null;
    //预处理,@Test之前
    @Before
    public void inint() throws URISyntaxException, IOException, InterruptedException {
        fs=FileSystem.get(new URI("hdfs://192.168.18.129:9000"),new Configuration(),"root");

    }
}

测试

import com.sun.scenario.effect.impl.sw.sse.SSEBlend_SRC_OUTPeer;
import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.FileSystem;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.IOUtils;
import org.junit.Before;
import org.junit.Test;

import java.io.*;
import java.net.URI;
import java.net.URISyntaxException;

public class java_hdfs {
    //自定义文件系统,类变量
    FileSystem fs=null;
    //预处理,@Test之前
    @Before
    public void inint() throws URISyntaxException, IOException, InterruptedException {
        fs=FileSystem.get(new URI("hdfs://192.168.18.129:9000"),new Configuration(),"root");

    }
    @Test
    public void printFS(){
        System.out.println(fs);
    }
}

创建文件夹

 @Test
    public void test() throws IOException {
        //创建文件夹
        final String pathString = "/d1";
        boolean exists = fs.exists(new Path(pathString));
        if(!exists){
            boolean result = fs.mkdirs(new Path(pathString));
            System.out.println(result);
        }
    }

上传文件

@Test
    public void test2() throws IOException {
        //上传文件
        InputStream in = new FileInputStream("/root/install.log");
        OutputStream out = fs.create(new Path("/log123.log"));
        IOUtils.copyBytes(in, out, 1024, true);
    }

删除文件

 @Test
    public void test3() throws IOException {
        //删除文件
        boolean flag = fs.delete(new Path("/d1"), true);
        System.out.println(flag);
    }

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值